論文の概要: First is Better Than Last for Training Data Influence
- arxiv url: http://arxiv.org/abs/2202.11844v1
- Date: Thu, 24 Feb 2022 00:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:13:18.976356
- Title: First is Better Than Last for Training Data Influence
- Title(参考訳): 第一に、トレーニングデータの影響は前より大きい
- Authors: Chih-Kuan Yeh, Ankur Taly, Mukund Sundararajan, Frederick Liu, Pradeep
Ravikumar
- Abstract要約: 既存の手法はモデルパラメータによる影響の流れに基づいている。
そこで我々は,最後の層ではなく単語埋め込み層上で動作させるTracIn-WEという手法を提案する。
また,TracIn-WEは,3つの言語分類タスクにおけるケース削除評価において,最終層に適用される他のデータ影響手法を4~10倍に向上させることを示した。
- 参考スコア(独自算出の注目度): 44.907420330002815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to identify influential training examples enables us to debug
training data and explain model behavior. Existing techniques are based on the
flow of influence through the model parameters. For large models in NLP
applications, it is often computationally infeasible to study this flow through
all model parameters, therefore techniques usually pick the last layer of
weights. Our first observation is that for classification problems, the last
layer is reductive and does not encode sufficient input level information.
Deleting influential examples, according to this measure, typically does not
change the model's behavior much. We propose a technique called TracIn-WE that
modifies a method called TracIn to operate on the word embedding layer instead
of the last layer. This could potentially have the opposite concern, that the
word embedding layer does not encode sufficient high level information.
However, we find that gradients (unlike embeddings) do not suffer from this,
possibly because they chain through higher layers. We show that TracIn-WE
significantly outperforms other data influence methods applied on the last
layer by 4-10 times on the case deletion evaluation on three language
classification tasks. In addition, TracIn-WE can produce scores not just at the
training data level, but at the word training data level, a further aid in
debugging.
- Abstract(参考訳): 影響力のあるトレーニング例を識別することで、トレーニングデータのデバッグとモデルの振る舞い説明が可能になります。
既存の手法はモデルパラメータによる影響の流れに基づいている。
NLPアプリケーションにおける大規模モデルの場合、このフローを全てのモデルパラメータを通して研究することは、しばしば計算不可能である。
最初の観察では、分類問題に対して最終層は簡約であり、十分な入力レベル情報をエンコードしていない。
この尺度によれば、影響のある例を削除することは、通常、モデルの振る舞いをあまり変えない。
そこで我々は,最後の層ではなく単語埋め込み層上で動作させるTracIn-WEという手法を提案する。
これは、ワード埋め込み層が十分な高レベル情報をエンコードしていないという、反対の懸念を持つ可能性がある。
しかし、勾配(埋め込みとは異なり)は、おそらくより高い層をチェーンするので、この問題に苦しむことはない。
3つの言語分類タスクにおけるケース削除評価において,tracin-weは最終層に適用される他のデータへの影響手法を4~10倍大きく上回っている。
さらに、tracin-weは、トレーニングデータレベルだけでなく、ワードトレーニングデータレベルでスコアを作成でき、デバッグをさらに支援します。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Inf-CP: A Reliable Channel Pruning based on Channel Influence [4.692400531340393]
チャネルプルーニングの最も効果的な方法の1つは、各ニューロンの重要性に基づいてトリムを行うことである。
従来の研究は、単一層または複数の連続するニューロンの統計を考慮し、トリムすることを提案した。
我々は、アンサンブル学習を用いて、異なるデータバッチのモデルをトレーニングすることを提案する。
論文 参考訳(メタデータ) (2021-12-05T09:30:43Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z) - Explaining Neural Matrix Factorization with Gradient Rollback [22.33402175974514]
グラデーション・ロールバックは インフルエンス・アセスメントの一般的なアプローチです
トレーニング時間とテスト時間の両方において,勾配ロールバックが非常に効率的であることを示す。
グラデーションロールバックは、知識ベース補完と推奨データセットの忠実な説明を提供する。
論文 参考訳(メタデータ) (2020-10-12T08:15:54Z) - Not All Unlabeled Data are Equal: Learning to Weight Data in
Semi-supervised Learning [135.89676456312247]
ラベル付けされていないすべての例に対して、異なるウェイトを使用する方法を示します。
影響関数に基づいたアルゴリズムを用いて重み付けを調整する。
本手法は,半教師付き画像および言語分類タスクにおける最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-02T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。