論文の概要: First is Not Really Better Than Last: Evaluating Layer Choice and Aggregation Strategies in Language Model Data Influence Estimation
- arxiv url: http://arxiv.org/abs/2511.04715v1
- Date: Thu, 06 Nov 2025 00:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.54731
- Title: First is Not Really Better Than Last: Evaluating Layer Choice and Aggregation Strategies in Language Model Data Influence Estimation
- Title(参考訳): First is not really better than last: Evaluating Layer Choice and Aggregation Strategies in Language Model Data Influence Estimation
- Authors: Dmytro Vitel, Anshuman Chhabra,
- Abstract要約: モデル決定を効果的に解釈するためには、LLM(Large Language Model)決定に影響を及ぼす訓練サンプルが不可欠である。
現在のトレーニングサンプル影響推定法(インフルエンス関数とも呼ばれる)は、モデルを通しての情報フローを利用することで、この目標を達成している。
しかしながら、数十億のパラメータからなる今日の大規模なモデルサイズのため、これらの影響計算はモデル層の一部に制限されることが多い。
- 参考スコア(独自算出の注目度): 8.788531432978802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying how training samples influence/impact Large Language Model (LLM) decision-making is essential for effectively interpreting model decisions and auditing large-scale datasets. Current training sample influence estimation methods (also known as influence functions) undertake this goal by utilizing information flow through the model via its first-order and higher-order gradient terms. However, owing to the large model sizes of today consisting of billions of parameters, these influence computations are often restricted to some subset of model layers to ensure computational feasibility. Prior seminal work by Yeh et al. (2022) in assessing which layers are best suited for computing language data influence concluded that the first (embedding) layers are the most informative for this purpose, using a hypothesis based on influence scores canceling out (i.e., the cancellation effect). In this work, we propose theoretical and empirical evidence demonstrating how the cancellation effect is unreliable, and that middle attention layers are better estimators for influence. Furthermore, we address the broader challenge of aggregating influence scores across layers, and showcase how alternatives to standard averaging (such as ranking and vote-based methods) can lead to significantly improved performance. Finally, we propose better methods for evaluating influence score efficacy in LLMs without undertaking model retraining, and propose a new metric known as the Noise Detection Rate (NDR) that exhibits strong predictive capability compared to the cancellation effect. Through extensive experiments across LLMs of varying types and scales, we concretely determine that the first (layers) are not necessarily better than the last (layers) for LLM influence estimation, contrasting with prior knowledge in the field.
- Abstract(参考訳): モデル決定を効果的に解釈し、大規模なデータセットを監査するために、トレーニングサンプルがどのようにLLM(Large Language Model)決定に影響を与えるかを特定することが不可欠である。
現在のトレーニングサンプル影響推定法(インフルエンス関数とも呼ばれる)は、その1次および高次勾配項を介してモデルを通る情報フローを利用することで、この目標を達成している。
しかし、今日の数十億のパラメータからなる大規模なモデルサイズのため、これらの影響計算は計算可能性を確保するためにモデル層のサブセットに制限されることが多い。
Yeh et al (2022) による先駆的な研究は、どの層が計算言語データの影響に最も適しているかを評価することで、最初の(埋め込み)層が、キャンセルされる影響スコア(つまりキャンセル効果)に基づいた仮説を用いて、この目的のために最も有益であると結論付けた。
本研究では, キャンセル効果が信頼できないこと, ミドルアテンション層が影響評価に有効であることを示す理論的, 実証的な証拠を提案する。
さらに,各層にまたがる影響スコアの集約という課題に対処し,標準平均化(ランキングや投票方式など)の代替によって,性能が大幅に向上することを示す。
最後に、モデル再トレーニングを行なわずにLLMにおける影響スコアの有効性を評価するためのより良い手法を提案し、キャンセル効果と比較して強い予測能力を示すノイズ検出率(NDR)と呼ばれる新しい指標を提案する。
様々な種類やスケールのLLMに対する広範な実験を通じて、第1層(層)がLLM影響推定の最終層(層)よりも必ずしも良いとは限らないことを具体的に決定する。
関連論文リスト
- Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。
対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。
実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-25T09:08:00Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Estimating Causal Effects with Double Machine Learning -- A Method Evaluation [5.904095466127043]
DML(Double/Debiased Machine Learning)の最も顕著な手法の1つについてレビューする。
この結果から, DML 内でのフレキシブルな機械学習アルゴリズムの適用により, 様々な非線形共起関係の調整が向上することが示唆された。
大気汚染が住宅価格に与える影響を推定すると、DMLの見積もりは柔軟性の低い方法の推定よりも一貫して大きいことが分かる。
論文 参考訳(メタデータ) (2024-03-21T13:21:33Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Adapting and Evaluating Influence-Estimation Methods for
Gradient-Boosted Decision Trees [12.167833575680833]
Gradient-boosted decision tree (GBDT) は、強力で広く使われているモデルのクラスである。
深層学習モデルのために設計された影響推定手法をGBDTに適用する。
BoostIn は GBDT に対する効率的な影響推定手法であり,既存の作業と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2022-04-30T22:39:17Z) - First is Better Than Last for Language Data Influence [44.907420330002815]
我々は、TracIn-WEが、最終層に適用される他のデータ影響手法を著しく上回っていることを示す。
また、TracIn-WEは、トレーニング入力全体のレベルだけでなく、トレーニング入力内の単語のレベルでもスコアを生成できることを示す。
論文 参考訳(メタデータ) (2022-02-24T00:48:29Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。