論文の概要: Simfluence: Modeling the Influence of Individual Training Examples by
Simulating Training Runs
- arxiv url: http://arxiv.org/abs/2303.08114v1
- Date: Tue, 14 Mar 2023 17:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:49:41.057646
- Title: Simfluence: Modeling the Influence of Individual Training Examples by
Simulating Training Runs
- Title(参考訳): simfluence: トレーニング実行のシミュレーションによる個々のトレーニング例の影響のモデル化
- Authors: Kelvin Guu, Albert Webson, Ellie Pavlick, Lucas Dixon, Ian Tenney,
Tolga Bolukbasi
- Abstract要約: トレーニングデータ属性(TDA)メソッドは、任意の例に対するモデルの予測を、特定の影響力のあるトレーニング例に遡る。
そこで本研究では,TDAの新しいパラダイムであるSimfluenceを提案する。
シムフルエンスは非付加的な相互作用を捉え、個々の損失のスパイクな軌道を驚くほどの忠実さで予測することができる。
- 参考スコア(独自算出の注目度): 27.314239745883967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data attribution (TDA) methods offer to trace a model's prediction
on any given example back to specific influential training examples. Existing
approaches do so by assigning a scalar influence score to each training
example, under a simplifying assumption that influence is additive. But in
reality, we observe that training examples interact in highly non-additive ways
due to factors such as inter-example redundancy, training order, and curriculum
learning effects.
To study such interactions, we propose Simfluence, a new paradigm for TDA
where the goal is not to produce a single influence score per example, but
instead a training run simulator: the user asks, ``If my model had trained on
example $z_1$, then $z_2$, ..., then $z_n$, how would it behave on
$z_{test}$?''; the simulator should then output a simulated training run, which
is a time series predicting the loss on $z_{test}$ at every step of the
simulated run. This enables users to answer counterfactual questions about what
their model would have learned under different training curricula, and to
directly see where in training that learning would occur.
We present a simulator, Simfluence-Linear, that captures non-additive
interactions and is often able to predict the spiky trajectory of individual
example losses with surprising fidelity. Furthermore, we show that existing TDA
methods such as TracIn and influence functions can be viewed as special cases
of Simfluence-Linear. This enables us to directly compare methods in terms of
their simulation accuracy, subsuming several prior TDA approaches to
evaluation. In experiments on large language model (LLM) fine-tuning, we show
that our method predicts loss trajectories with much higher accuracy than
existing TDA methods (doubling Spearman's correlation and reducing mean-squared
error by 75%) across several tasks, models, and training methods.
- Abstract(参考訳): トレーニングデータ属性(TDA)メソッドは、任意の例に対するモデルの予測を、特定の影響力のあるトレーニング例に遡ることができる。
既存のアプローチでは、影響が付加的であるという単純な仮定の下で、各トレーニング例にスカラー影響スコアを割り当てている。
しかし,実のところ,実例では,実例間冗長性,訓練順序,カリキュラム学習効果などの要因により,高度に非加法的な相互作用がみられた。
このような相互作用を研究するために、我々はTDAの新しいパラダイムであるSimfluenceを提案する。このパラダイムは、サンプルあたりの1つの影響スコアを生成するのではなく、トレーニング実行シミュレータを目標とするものだ。 "もし、私のモデルが例$z_1$, then $z_2$, ..., then $z_n$でトレーニングされたなら、$z_{test}$?'でどのように振る舞うか?" と、シミュレータはシミュレートされた実行のすべてのステップで、$z_{test}$の損失を予測する時系列であるシミュレートされたトレーニング実行を出力すべきである。
これにより、ユーザーは異なるトレーニングカリキュラムの下でモデルが学習したであろうことに関する反現実的な質問に答え、学習がどこで起こるかを直接確認することができる。
我々は,非加法的相互作用を捉えるシミュレータであるシムフルエンス線形(simfluence-linear)を提案する。
さらに,TracInやインフルエンス関数といった既存のTDA手法をSimfluence-Linearの特殊なケースとみなせることを示す。
これにより,提案手法をシミュレーション精度で直接比較し,いくつかの先行TDA手法による評価を行うことができる。
大規模言語モデル(LLM)の微調整実験において,提案手法は既存のTDA法(スピアマンの相関を2倍にし,平均二乗誤差を75%削減する)に比べて,いくつかのタスク,モデル,トレーニング手法ではるかに高精度に損失軌跡を予測する。
関連論文リスト
- Surprises in adversarially-trained linear regression [12.33259114006129]
敵の訓練はこのような例に対して最も効果的なアプローチの1つである。
本稿では,線形回帰問題に対して,凸問題として逆行訓練を定式化できることを述べる。
十分に多くの特徴や十分小さな正規化パラメータに対して、学習されたモデルはトレーニングデータを完全に補間することを示す。
論文 参考訳(メタデータ) (2022-05-25T11:54:42Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - Pair the Dots: Jointly Examining Training History and Test Stimuli for
Model Interpretability [44.60486560836836]
モデルからの予測は、学習履歴とテスト刺激の組み合わせによって行われる。
モデルの予測を解釈する既存の方法は、テスト刺激または学習履歴の1つの側面しかキャプチャできない。
本研究では,学習履歴とテスト刺激を共同で調べることで,モデルの予測を解釈しやすくするための,効率的かつ異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:45:01Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Graph Learning with Loss-Guided Training [16.815638149823744]
sc DeepWalkの先駆的なノード埋め込み手法の新たな領域において、損失誘導型トレーニングについて検討する。
データセットの豊富なコレクションに対する実験的な評価は,総合的なトレーニングと総合計算の両面で,ベースライン静的メソッドよりも大幅に加速されたことを示す。
論文 参考訳(メタデータ) (2020-05-31T08:03:06Z) - Estimating Training Data Influence by Tracing Gradient Descent [21.94989239842377]
TracInは、モデルの予測に対するトレーニング例の影響を計算する。
TracInは実装が簡単で、必要なのは非依存の損失関数を動作させることだけだ。
論文 参考訳(メタデータ) (2020-02-19T22:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。