論文の概要: Unlearning Reveals the Influential Training Data of Language Models
- arxiv url: http://arxiv.org/abs/2401.15241v1
- Date: Fri, 26 Jan 2024 23:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:10:57.099405
- Title: Unlearning Reveals the Influential Training Data of Language Models
- Title(参考訳): unlearningが言語モデルの影響力あるトレーニングデータを公開
- Authors: Masaru Isonuma and Ivan Titov
- Abstract要約: 本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。
我々は,本手法が有毒,偏り,不合理なコンテンツの生成に対する事前学習データセットの影響を評価できるかどうかを実証的に検討する。
- 参考スコア(独自算出の注目度): 37.02159903174132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to enhance the performance of language models while mitigating the
risks of generating harmful content, it is crucial to identify which training
dataset affects the model's outputs. Ideally, we can measure the influence of
each dataset by removing it from training; however, it is prohibitively
expensive to retrain a model multiple times. This paper presents UnTrac, which
estimates the influence of a training dataset by unlearning it from the trained
model. UnTrac is extremely simple; each training dataset is unlearned by
gradient ascent, and we evaluate how much the model's predictions change after
unlearning. We empirically examine if our methods can assess the influence of
pretraining datasets on generating toxic, biased, and untruthful content.
Experimental results demonstrate that our method estimates their influence much
more accurately than existing methods while requiring neither excessive memory
space nor multiple model checkpoints.
- Abstract(参考訳): 有害なコンテンツを生成するリスクを軽減しつつ、言語モデルの性能を向上させるためには、モデルの出力に影響を与えるトレーニングデータセットを特定することが重要である。
理想的には、各データセットの影響をトレーニングから取り除くことで測定することができるが、モデルを複数回再トレーニングすることは違法に高価である。
本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。
UnTracは非常に単純で、各トレーニングデータセットは勾配上昇によって解放され、学習後にモデルの予測がどの程度変化するかを評価する。
我々は,本手法が有毒,偏り,不合理なコンテンツの生成に及ぼす事前学習データセットの影響を実証的に検証する。
実験の結果,既存の手法よりも影響を推定し,過大なメモリ容量や複数のモデルチェックポイントを必要としないことがわかった。
関連論文リスト
- Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。
削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。
選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。
本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文 参考訳(メタデータ) (2021-06-29T05:05:58Z) - Coded Machine Unlearning [34.08435990347253]
学習フェーズの前にデータセットを線形に符号化する符号化学習プロトコルを提案する。
また, 符号化学習モデルのアンラーニングプロトコルについて述べるとともに, 完全なアンラーニングを実現するための提案プロトコルの成功について考察する。
論文 参考訳(メタデータ) (2020-12-31T17:20:34Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。