論文の概要: Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution
- arxiv url: http://arxiv.org/abs/2602.14869v1
- Date: Mon, 16 Feb 2026 16:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.530041
- Title: Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution
- Title(参考訳): 概念的影響: 学習データ属性のパフォーマンスと効率を改善するための解釈可能性の活用
- Authors: Matthew Kowal, Goncalo Paulo, Louis Jaburi, Tom Tseng, Lev E McKinney, Stefan Heimersheim, Aaron David Tucker, Adam Gleave, Kellin Pelrine,
- Abstract要約: トレーニングデータ属性(TDA)メソッドは、トレーニングデータが特定の行動、特に意図しない行動を実行する方法を特定する。
影響関数のような既存のアプローチは、計算的に高価であり、単一のテスト例に基づく属性である。
帰属中にモデル内の解釈可能な構造を利用する。
従来のTDAパイプラインに解釈可能な構造を組み込むことで,データによるモデル動作のよりスケーラブルで説明可能な,より優れた制御が可能になることを示す。
- 参考スコア(独自算出の注目度): 11.387100835483672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models are increasingly trained and fine-tuned, practitioners need methods to identify which training data drive specific behaviors, particularly unintended ones. Training Data Attribution (TDA) methods address this by estimating datapoint influence. Existing approaches like influence functions are both computationally expensive and attribute based on single test examples, which can bias results toward syntactic rather than semantic similarity. To address these issues of scalability and influence to abstract behavior, we leverage interpretable structures within the model during the attribution. First, we introduce Concept Influence which attribute model behavior to semantic directions (such as linear probes or sparse autoencoder features) rather than individual test examples. Second, we show that simple probe-based attribution methods are first-order approximations of Concept Influence that achieve comparable performance while being over an order-of-magnitude faster. We empirically validate Concept Influence and approximations across emergent misalignment benchmarks and real post-training datasets, and demonstrate they achieve comparable performance to classical influence functions while being substantially more scalable. More broadly, we show that incorporating interpretable structure within traditional TDA pipelines can enable more scalable, explainable, and better control of model behavior through data.
- Abstract(参考訳): 大きな言語モデルがますます訓練され、微調整されるにつれて、実践者は、特定の振る舞い、特に意図しない振る舞いを駆動するトレーニングデータを特定する方法を必要とします。
トレーニングデータ属性(TDA)メソッドは、データポイントの影響を推定することでこの問題に対処する。
影響関数のような既存のアプローチは、計算的に高価であり、単一のテスト例に基づく属性であり、セマンティックな類似性よりも構文に偏りがある。
これらのスケーラビリティと抽象的な振る舞いへの影響に対処するために、帰属期間中にモデル内の解釈可能な構造を利用する。
まず、個々のテスト例ではなく、意味的な方向(線形プローブやスパースオートエンコーダ機能など)に対する属性モデルの振る舞いを示す概念の影響を紹介する。
第二に、単純なプローブに基づく帰属法は概念影響の1次近似であり、より高速なオーダー・オブ・マグニチュードを達成できることを示す。
我々は、創発的なミスアライメントベンチマークと実際のトレーニング後のデータセットにまたがる概念の影響と近似を実証的に検証し、よりスケーラブルで、古典的な影響関数に匹敵するパフォーマンスを実現することを実証した。
より広義には、従来のTDAパイプラインに解釈可能な構造を組み込むことで、よりスケーラブルで説明可能なデータによるモデル動作のより良い制御が可能になることが示される。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Revisiting Data Attribution for Influence Functions [13.88866465448849]
本稿では,ディープラーニングにおける影響関数のデータ帰属能力について概説する。
提案手法の理論的基礎, 効率的な逆ヘッセンベクトル積推定のためのアルゴリズムの最近の進歩, およびデータ帰属と誤ラベル検出の有効性について考察する。
論文 参考訳(メタデータ) (2025-08-10T11:15:07Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Supervised Contrastive Learning for Affect Modelling [2.570570340104555]
情報に影響を及ぼすことを考慮に入れた訓練表現のための3つの異なる教師付きコントラスト学習手法を導入する。
その結果、コントラスト学習の表現能力と、影響モデルの精度を高めるための効率が示された。
論文 参考訳(メタデータ) (2022-08-25T17:40:19Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。