論文の概要: Attention Smoothing Is All You Need For Unlearning
- arxiv url: http://arxiv.org/abs/2603.01285v1
- Date: Sun, 01 Mar 2026 21:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.606686
- Title: Attention Smoothing Is All You Need For Unlearning
- Title(参考訳): 注意をそらすスムースなスムースな学習
- Authors: Saleh Zare Zade, Xiangyu Zhou, Sijia Liu, Dongxiao Zhu,
- Abstract要約: 大きな言語モデルは、機密性の高い、著作権のある、または有害なコンテンツを記憶する傾向があり、重大なプライバシーと法的懸念を生じさせる。
本研究では,モデル自体の注意を生かした学習者に対して,学習を自己蒸留として活用する原則的枠組みである注意平滑化学習を提案する。
- 参考スコア(独自算出の注目度): 12.239021292288967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are prone to memorizing sensitive, copyrighted, or hazardous content, posing significant privacy and legal concerns. Retraining from scratch is computationally infeasible, whereas current unlearning methods exhibit unstable trade-offs between forgetting and utility, frequently producing incoherent outputs on forget prompts and failing to generalize due to the persistence of lexical-level and semantic-level associations in attention. We propose Attention Smoothing Unlearning (ASU), a principled framework that casts unlearning as self-distillation from a forget-teacher derived from the model's own attention. By increasing the softmax temperature, ASU flattens attention distributions and directly suppresses the lexical-level and semantic-level associations responsible for reconstructing memorized knowledge. This results in a bounded optimization objective that erases factual information yet maintains coherence in responses to forget prompts. Empirical evaluation on TOFU, MUSE, and WMDP, along with real-world and continual unlearning scenarios across question answering and text completion, demonstrates that ASU outperforms the baselines for most unlearning scenarios, delivering robust unlearning with minimal loss of model utility.
- Abstract(参考訳): 大きな言語モデルは、機密性の高い、著作権のある、または有害なコンテンツを記憶する傾向があり、重大なプライバシーと法的懸念を生じさせる。
スクラッチからのトレーニングは計算不可能であるが、現在の未学習の手法は、忘れることと実用性の間に不安定なトレードオフを示し、しばしば忘れのプロンプトに一貫性のない出力を生成し、注意を向ける語彙レベルと意味レベルの関連が持続しているために一般化しない。
本研究では,モデル自体の注意を引いた学習者から,学習を自己蒸留とみなす原則的枠組みである注意平滑化学習(ASU)を提案する。
ソフトマックス温度を上昇させることで、ASUは注意分布を平坦化し、記憶された知識の再構築に寄与する語彙レベルおよび意味レベルの関連を直接抑制する。
これは、事実情報を消去するが、プロンプトを忘れるための応答においてコヒーレンスを維持する、境界最適化の目的をもたらす。
TOFU、MUSE、WMDPに関する実証的な評価と、質問応答とテキスト補完の実際のおよび継続的な未学習シナリオは、ASUがほとんどの未学習シナリオのベースラインを上回り、モデルユーティリティの損失を最小限に抑えながら堅牢な未学習を実現することを実証している。
関連論文リスト
- Consistency-Aware Editing for Entity-level Unlearning in Language Models [53.522931419965424]
本稿では,エンティティレベルのアンラーニングのための新しい一貫性対応編集(CAE)フレームワークを提案する。
CAEは、その属性、関係、および敵のパラフレーズを含む、ターゲットエンティティに関連する多様なプロンプトの集合を集約する。
次に、一貫性レギュレータによってガイドされる低ランクの更新を共同で学習し、プロンプトをまたいだ編集方向を調整する。
論文 参考訳(メタデータ) (2025-12-19T15:18:07Z) - Towards Reasoning-Preserving Unlearning in Multimodal Large Language Models [17.184948937224142]
機械学習は、トレーニングされたモデルから要求されたデータを、完全なリトレーニングなしで消去することを目的としている。
中間チェーンのステップは、最終回答が忘れられたとしても、機密情報を漏洩することができる。
本稿では,R-MUSEを提案する。R-MUSEは,内部表現を操り,回答と推論トレースの両方を忘れる学習自由かつ推論時間の介入フレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:45:52Z) - Towards Benign Memory Forgetting for Selective Multimodal Large Language Model Unlearning [49.274436951541425]
MLLM(Multimodal Large Language Models)は優れた能力を発揮するが、プライバシーに敏感な情報を不注意に記憶することができる。
既存の未学習の手法は、しばしばモデルの一般的な画像理解性能を劣化させるため、良心的な忘れを達成できない。
本稿では, メモリ領域のメモリ領域への忘れを抑えつつ, 全体的な機能を維持するSculpted Forgetting Adapter (SMFA)を提案する。
論文 参考訳(メタデータ) (2025-11-25T11:22:45Z) - Wisdom is Knowing What not to Say: Hallucination-Free LLMs Unlearning via Attention Shifting [11.725875396424927]
選択的アンラーニングのためのAttention-Shifting(AS)フレームワークを導入する。
ASは,(1)LLMの言語構造を損なうことなく,事実を含むトークンへの注意を弱める文脈保存抑制,(2)未学習コンテンツについて問い合わせたときの完成度を損なう幻覚耐性応答の2つの設計目標によって駆動される。
実験の結果、ASは最先端の未学習手法よりも性能を向上し、ToFUベンチマークでは最大15%、TDECベンチマークでは10%の精度を達成し、競合する幻覚のない未学習の有効性を維持した。
論文 参考訳(メタデータ) (2025-10-20T06:50:03Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - BLUR: A Bi-Level Optimization Approach for LLM Unlearning [100.90394814817965]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - Do LLMs Really Forget? Evaluating Unlearning with Knowledge Correlation and Confidence Awareness [46.653774740885275]
大規模言語モデル(LLM)における意図しない記憶の軽減を目的とした機械学習手法
実世界の知識の暗黙構造をより正確に捉えた知識未学習評価フレームワークを提案する。
私たちのフレームワークは、未学習のパフォーマンスをより現実的で厳格に評価します。
論文 参考訳(メタデータ) (2025-06-06T04:35:19Z) - Not All Tokens Are Meant to Be Forgotten [13.060635265281864]
大規模言語モデル(LLM)は、優れた人間レベルの言語理解、推論、意思決定能力を示す。
LLMは、プライベートや著作権のあるコンテンツなどの望ましくない情報を記憶し、プライバシーや法的懸念を生じさせる傾向がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:05Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。