Fugu-MT 論文翻訳(概要): Unlearning Reveals the Influential Training Data of Language Models

論文の概要: Unlearning Reveals the Influential Training Data of Language Models

arxiv url: http://arxiv.org/abs/2401.15241v1
Date: Fri, 26 Jan 2024 23:17:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 19:10:57.099405
Title: Unlearning Reveals the Influential Training Data of Language Models
Title（参考訳）: unlearningが言語モデルの影響力あるトレーニングデータを公開
Authors: Masaru Isonuma and Ivan Titov
Abstract要約: 本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。我々は,本手法が有毒,偏り,不合理なコンテンツの生成に対する事前学習データセットの影響を評価できるかどうかを実証的に検討する。
参考スコア（独自算出の注目度）: 37.02159903174132
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In order to enhance the performance of language models while mitigating the risks of generating harmful content, it is crucial to identify which training dataset affects the model's outputs. Ideally, we can measure the influence of each dataset by removing it from training; however, it is prohibitively expensive to retrain a model multiple times. This paper presents UnTrac, which estimates the influence of a training dataset by unlearning it from the trained model. UnTrac is extremely simple; each training dataset is unlearned by gradient ascent, and we evaluate how much the model's predictions change after unlearning. We empirically examine if our methods can assess the influence of pretraining datasets on generating toxic, biased, and untruthful content. Experimental results demonstrate that our method estimates their influence much more accurately than existing methods while requiring neither excessive memory space nor multiple model checkpoints.
Abstract（参考訳）: 有害なコンテンツを生成するリスクを軽減しつつ、言語モデルの性能を向上させるためには、モデルの出力に影響を与えるトレーニングデータセットを特定することが重要である。理想的には、各データセットの影響をトレーニングから取り除くことで測定することができるが、モデルを複数回再トレーニングすることは違法に高価である。本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。 UnTracは非常に単純で、各トレーニングデータセットは勾配上昇によって解放され、学習後にモデルの予測がどの程度変化するかを評価する。我々は,本手法が有毒,偏り,不合理なコンテンツの生成に及ぼす事前学習データセットの影響を実証的に検証する。実験の結果,既存の手法よりも影響を推定し,過大なメモリ容量や複数のモデルチェックポイントを必要としないことがわかった。

関連論文リスト

Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文参考訳（メタデータ） (2025-05-22T05:50:19Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文参考訳（メタデータ） (2024-02-21T18:54:37Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文参考訳（メタデータ） (2021-08-26T04:42:24Z)
Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文参考訳（メタデータ） (2021-06-29T05:05:58Z)
Coded Machine Unlearning [34.08435990347253]
学習フェーズの前にデータセットを線形に符号化する符号化学習プロトコルを提案する。また, 符号化学習モデルのアンラーニングプロトコルについて述べるとともに, 完全なアンラーニングを実現するための提案プロトコルの成功について考察する。
論文参考訳（メタデータ） (2020-12-31T17:20:34Z)
Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文参考訳（メタデータ） (2020-12-08T04:31:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。