論文の概要: LLM Unlearning with LLM Beliefs
- arxiv url: http://arxiv.org/abs/2510.19422v1
- Date: Wed, 22 Oct 2025 09:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.534111
- Title: LLM Unlearning with LLM Beliefs
- Title(参考訳): LLM信念を用いたLLMアンラーニング
- Authors: Kemou Li, Qizhou Wang, Yue Wang, Fengpeng Li, Jun Liu, Bo Han, Jiantao Zhou,
- Abstract要約: 巨大なコーパスで訓練された大きな言語モデルは、本質的に機密または有害な内容を記憶し、後に出力に再浮上する可能性がある。
本稿では、スケズ効果をモデル自身の高信頼世代に明示的に関連付けるブートストラップフレームワークを提案する。
目標応答とモデル信念の両方を共同で抑制することにより、BS-T(トークン)は高い確率トークンを減らし、BS-S(シーケンス)は全高信頼世代を除去する。
- 参考スコア(独自算出の注目度): 39.271253385135644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models trained on vast corpora inherently risk memorizing sensitive or harmful content, which may later resurface in their outputs. Prevailing unlearning methods generally rely on gradient ascent and its variants to lower the probability of specific target responses. However, we find that this strategy induces a critical side effect: probability mass is redistributed into high-likelihood regions, often corresponding to semantically related rephrasings of the targets. We refer to this as the squeezing effect, which explains why many methods yield merely spurious unlearning, a problem further obscured by automated metrics (e.g., ROUGE, truth ratio) that misreport actual success. To address this, we propose a bootstrapping (BS) framework that explicitly links the squeezing effect with the model's own high-confidence generations, namely its model beliefs. Since model beliefs inherently capture the very high-likelihood regions where probability mass is squeezed, incorporating them into the unlearning objective directly counters the squeezing effect. By jointly suppressing both target responses and model beliefs, BS-T (token) attenuates high-probability tokens, whereas BS-S (sequence) removes entire high-confidence generations, together achieving more thorough forgetting while preserving utility. Extensive experiments across diverse benchmarks with various model families confirm the effectiveness of our approach.
- Abstract(参考訳): 巨大なコーパスで訓練された大きな言語モデルは、本質的に機密または有害な内容を記憶し、後に出力に再浮上する可能性がある。
一般的なアンラーニング手法は、通常、特定のターゲット応答の確率を下げるために勾配上昇とその変種に依存する。
しかし、この戦略は、確率質量を高次領域に再分配し、しばしば標的の意味論的に関連する言い換えに対応するという、重要な副作用を引き起こす。
これは、多くの手法が単に刺激的な未学習をもたらす理由を説明しており、実際の成功を誤報告する自動メトリクス(例えば、ROUGE、真実比)によってさらに曖昧化されている。
そこで本研究では,スケズ効果とモデルが持つ高信頼度世代,すなわちモデル信念を明示的に関連付けるブートストラップ(BS)フレームワークを提案する。
モデル信念は、確率質量を絞った非常に高次な領域を本質的に捉えているため、学習されていない目的にそれらを組み込むことは、スクイーズ効果と直接対決する。
目標応答とモデル信念の両方を共同で抑制することにより、BS-T(トークン)は高確率トークンを減衰させ、BS-S(シーケンス)は高信頼世代全体を排除し、実用性を維持しながらより徹底的な忘れを達成させる。
各種モデルファミリを用いた多種多様なベンチマークによる大規模な実験により,本手法の有効性が確認された。
関連論文リスト
- Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Efficient Uncertainty in LLMs through Evidential Knowledge Distillation [3.864321514889099]
性能を犠牲にすることなく,LLMの効率的かつ効果的な不確実性評価を可能にする新しい手法を提案する。
我々は、不確実性を考慮した教師モデルを、同じアーキテクチャを共有するコンパクトな学生モデルに蒸留するが、Lo-Rank Adaptation (LoRA)を用いて微調整する。
分類データセットに関する実証的な評価は、そのような学生が同等または優れた予測的・不確実性定量化性能を達成できることを証明している。
論文 参考訳(メタデータ) (2025-07-24T12:46:40Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。