論文の概要: Estimating Training Data Influence by Tracing Gradient Descent
- arxiv url: http://arxiv.org/abs/2002.08484v3
- Date: Sat, 14 Nov 2020 18:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:27:04.159256
- Title: Estimating Training Data Influence by Tracing Gradient Descent
- Title(参考訳): トレース勾配降下によるトレーニングデータの影響推定
- Authors: Garima Pruthi, Frederick Liu, Mukund Sundararajan, Satyen Kale
- Abstract要約: TracInは、モデルの予測に対するトレーニング例の影響を計算する。
TracInは実装が簡単で、必要なのは非依存の損失関数を動作させることだけだ。
- 参考スコア(独自算出の注目度): 21.94989239842377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method called TracIn that computes the influence of a training
example on a prediction made by the model. The idea is to trace how the loss on
the test point changes during the training process whenever the training
example of interest was utilized. We provide a scalable implementation of
TracIn via: (a) a first-order gradient approximation to the exact computation,
(b) saved checkpoints of standard training procedures, and (c) cherry-picking
layers of a deep neural network. In contrast with previously proposed methods,
TracIn is simple to implement; all it needs is the ability to work with
gradients, checkpoints, and loss functions. The method is general. It applies
to any machine learning model trained using stochastic gradient descent or a
variant of it, agnostic of architecture, domain and task. We expect the method
to be widely useful within processes that study and improve training data.
- Abstract(参考訳): 本稿では,モデルによる予測に対するトレーニング例の影響を計算するTracInという手法を提案する。
そのアイデアは、トレーニングの例が利用されるたびに、トレーニングプロセス中にテストポイントの損失がどのように変化するのかを追跡することだ。
TracInのスケーラブルな実装は以下の通りです。
(a)厳密な計算に対する一階勾配近似
(b)標準訓練手順のチェックポイントを保存し、
(c)深層ニューラルネットワークのチェリーピッキング層。
以前提案されたメソッドとは対照的に、TracInの実装は簡単である。
方法は一般的です。
確率的勾配降下またはその変種を用いてトレーニングされた任意の機械学習モデルに適用され、アーキテクチャ、ドメイン、タスクに依存しない。
トレーニングデータの研究・改善プロセスにおいて,本手法が広く有用であることが期待されている。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - An Effective Dynamic Gradient Calibration Method for Continual Learning [11.555822066922508]
継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。
メモリ制限のため、すべての履歴データを保存できないため、破滅的な忘れの問題に直面します。
モデルの各更新ステップの勾配をキャリブレーションする有効なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-07-30T16:30:09Z) - A Rate-Distortion View of Uncertainty Quantification [36.85921945174863]
教師付き学習では、入力がトレーニングデータに近接していることを理解することは、モデルが信頼できる予測に達する十分な証拠を持っているかどうかを判断するのに役立つ。
本稿では,この特性でディープニューラルネットワークを強化するための新しい手法であるDistance Aware Bottleneck (DAB)を紹介する。
論文 参考訳(メタデータ) (2024-06-16T01:33:22Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Transferring Learning Trajectories of Neural Networks [2.2299983745857896]
深層ニューラルネットワーク(DNN)のトレーニングには計算コストがかかる。
我々は、与えられた学習軌跡を1つの初期パラメータから別のパラメータへ"転送する"という問題を定式化する。
移動パラメータが直接トレーニングの前に非自明な精度を達成できることを実証的に示し、スクラッチからトレーニングするよりもはるかに高速に訓練できることを実証した。
論文 参考訳(メタデータ) (2023-05-23T14:46:32Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Graph Learning with Loss-Guided Training [16.815638149823744]
sc DeepWalkの先駆的なノード埋め込み手法の新たな領域において、損失誘導型トレーニングについて検討する。
データセットの豊富なコレクションに対する実験的な評価は,総合的なトレーニングと総合計算の両面で,ベースライン静的メソッドよりも大幅に加速されたことを示す。
論文 参考訳(メタデータ) (2020-05-31T08:03:06Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。