論文の概要: Unlearning Reveals the Influential Training Data of Language Models
- arxiv url: http://arxiv.org/abs/2401.15241v1
- Date: Fri, 26 Jan 2024 23:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:10:57.099405
- Title: Unlearning Reveals the Influential Training Data of Language Models
- Title(参考訳): unlearningが言語モデルの影響力あるトレーニングデータを公開
- Authors: Masaru Isonuma and Ivan Titov
- Abstract要約: 本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。
我々は,本手法が有毒,偏り,不合理なコンテンツの生成に対する事前学習データセットの影響を評価できるかどうかを実証的に検討する。
- 参考スコア(独自算出の注目度): 37.02159903174132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to enhance the performance of language models while mitigating the
risks of generating harmful content, it is crucial to identify which training
dataset affects the model's outputs. Ideally, we can measure the influence of
each dataset by removing it from training; however, it is prohibitively
expensive to retrain a model multiple times. This paper presents UnTrac, which
estimates the influence of a training dataset by unlearning it from the trained
model. UnTrac is extremely simple; each training dataset is unlearned by
gradient ascent, and we evaluate how much the model's predictions change after
unlearning. We empirically examine if our methods can assess the influence of
pretraining datasets on generating toxic, biased, and untruthful content.
Experimental results demonstrate that our method estimates their influence much
more accurately than existing methods while requiring neither excessive memory
space nor multiple model checkpoints.
- Abstract(参考訳): 有害なコンテンツを生成するリスクを軽減しつつ、言語モデルの性能を向上させるためには、モデルの出力に影響を与えるトレーニングデータセットを特定することが重要である。
理想的には、各データセットの影響をトレーニングから取り除くことで測定することができるが、モデルを複数回再トレーニングすることは違法に高価である。
本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。
UnTracは非常に単純で、各トレーニングデータセットは勾配上昇によって解放され、学習後にモデルの予測がどの程度変化するかを評価する。
我々は,本手法が有毒,偏り,不合理なコンテンツの生成に及ぼす事前学習データセットの影響を実証的に検証する。
実験の結果,既存の手法よりも影響を推定し,過大なメモリ容量や複数のモデルチェックポイントを必要としないことがわかった。
関連論文リスト
- Corrective Machine Unlearning [23.969562017133367]
データの操作や誤操作を検出すると、開発者が何ができるのかを調査する。
「矯正機械学習」は、未知の操作による影響を緩和する問題である。
我々は、ゴールドスタンダード・リトレーニング・トゥ・スクラッチを含む既存の未学習手法のほとんどは、操作されたデータの大部分を識別する必要があることを発見した。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation
by Harnessing Forward Passes [32.11451526104394]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。