Fugu-MT 論文翻訳(概要): UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models

論文の概要: UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models

arxiv url: http://arxiv.org/abs/2402.10052v2
Date: Wed, 16 Oct 2024 11:50:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.809535
Title: UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models
Title（参考訳）: UNDIAL:大規模言語モデルにおけるロバスト・アンラーニングのための調整ロジットによる自己蒸留
Authors: Yijiang River Dong, Hongzhou Lin, Mikhail Belkin, Ramon Huerta, Ivan Vulić,
Abstract要約: 本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
参考スコア（独自算出の注目度）: 12.45822383965784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mitigating the retention of sensitive or private information in large language models is essential for enhancing privacy and safety. Existing unlearning methods, like Gradient Ascent and Negative Preference Optimization, directly tune models to remove unwanted information. However, these methods often become unstable because they fine-tune by maximizing cross-entropy loss, which is the opposite of traditional loss minimization in learning. This reversal creates instability, especially on larger datasets, as the model struggles to balance unlearning with maintaining language capacity, leading to over-unlearning. In this paper, we introduce UnDIAL (Unlearning via Self-Distillation on Adjusted Logits), a novel and robust unlearning method. Our approach leverages self-distillation to adjust logits and selectively reduce the influence of targeted tokens. This technique ensures smooth convergence and avoids catastrophic forgetting, even in challenging unlearning tasks with large datasets and sequential unlearning requests. Extensive experiments show that UnDIAL can achieve both robustness in unlearning and scalability while maintaining stable training dynamics and resilience to hyperparameter tuning.
Abstract（参考訳）: 大きな言語モデルにおける機密情報や個人情報の保持の緩和は、プライバシーと安全性を高めるために不可欠である。 Gradient AscentやNegative Preference Optimizationといった既存の未学習メソッドは、不要な情報を除去するためにモデルを直接チューニングする。しかし、これらの手法は、学習における従来の損失最小化とは逆のクロスエントロピー損失を最大化することによって微調整されるため、不安定になることが多い。この逆転は、特に大規模なデータセットにおいて、未学習と言語のキャパシティの維持とのバランスに苦慮し、過度の未学習につながるため、不安定を生じさせる。本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。このテクニックはスムーズな収束を保証し、大規模なデータセットとシーケンシャルな未学習要求による未学習タスクに挑戦しても、破滅的な忘れを避ける。大規模な実験により、UnDIALは、安定したトレーニングダイナミクスとハイパーパラメータチューニングに対するレジリエンスを維持しながら、アンラーニングとスケーラビリティの堅牢性の両方を達成することができることが示された。

関連論文リスト

Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data [89.96277093034547]
本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
論文参考訳（メタデータ） (2025-12-29T12:35:51Z)
Forgetting-MarI: LLM Unlearning via Marginal Information Regularization [6.979586479353831]
既存の未学習のメソッドは、特定のデータを“忘れる”場合に必要以上の情報を取り除くことで、モデルのパフォーマンスを劣化させることが多い。我々は,LLMアンラーニングフレームワークであるForgetting-MarIを紹介した。限界情報をペナル化することにより、トレーニングされたモデルにおける未学習データセットの残差の影響を明示的に上限付けし、証明不能な検出を可能にする。
論文参考訳（メタデータ） (2025-11-14T22:48:39Z)
Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning [25.53799024782883]
大言語モデル(LLM)は、既存のモデルから望ましくないデータや知識の影響を外科的に除去することを目的としている。最近の知見は、ウェイト量子化や微調整のような未学習操作が、意図した忘れを迅速に中和できることを示している。
論文参考訳（メタデータ） (2025-10-01T10:50:14Z)
Distillation Robustifies Unlearning [36.888726242192504]
本稿では,未学習のモデルを部分的にノイズ付きコピーに蒸留するスケーラブルな手法を提案する。最強設定では、UNDOはスクラッチからトレーニングされたモデルの堅牢性と完全なデータフィルタリングとを一致させる。 UNDOは、より現実的な大量破壊プロキシのベンチマークで、アンラーニングを強力にすることを示します。
論文参考訳（メタデータ） (2025-06-06T17:58:54Z)
UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。 UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T15:53:28Z)
Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。 LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文参考訳（メタデータ） (2024-11-13T08:56:35Z)
Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。 LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文参考訳（メタデータ） (2024-08-13T04:18:32Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
Machine Unlearning with Minimal Gradient Dependence for High Unlearning Ratios [18.73206066109299]
ミニ・アンラーニング(Mini-Unlearning)は、批判的な観察を活かした新しいアプローチである。この軽量でスケーラブルな方法は、モデルの精度を大幅に向上し、メンバシップ推論攻撃に対する耐性を高める。実験の結果,Mini-Unlearningは非学習率が高いだけでなく,既存の手法よりも精度と安全性が優れていることがわかった。
論文参考訳（メタデータ） (2024-06-24T01:43:30Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文参考訳（メタデータ） (2023-05-24T11:56:20Z)
Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文参考訳（メタデータ） (2021-08-26T04:42:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。