論文の概要: On the Hidden Costs of Counterfactual Knowledge Training in LLM Unlearning
- arxiv url: http://arxiv.org/abs/2605.27083v1
- Date: Tue, 26 May 2026 14:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.228202
- Title: On the Hidden Costs of Counterfactual Knowledge Training in LLM Unlearning
- Title(参考訳): LLMアンラーニングにおける非現実的知識教育の隠れコストについて
- Authors: Xiaotian Ye, Xiaohan Wang, Mengqi Zhang, Shu Wu,
- Abstract要約: 対実的チューニング(CFT)は、訓練モデルによるLarge Language Model(LLM)アンラーニングのための有望なパラダイムとして登場した。
このパラダイムは、いくつかの面で他のパラダイムよりも優れています。
本稿では,新しいトレードオフ指標と勾配レベルの診断ツールを備えた拡張ベンチマークRWKU+を紹介する。
- 参考スコア(独自算出の注目度): 65.58724910851039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual tuning (CFT) has emerged as a promising paradigm for Large Language Model (LLM) unlearning by training models to generate alternative fictitious knowledge in place of undesired content. However, in this work, we find that this paradigm still underperforms other paradigms in some aspects, and identify two previously overlooked pitfalls underlying this gap: (1) knowledge conflict, where mutual inconsistencies within counterfactual corpora induce conflicting gradients that disrupt parameter optimization, and (2) hallucination spillover, where fitting false targets instills a persistent fabrication bias, inflating hallucination rates on unrelated domains. To systematically diagnose these issues, we introduce RWKU+, an extended benchmark equipped with novel trade-off metrics and gradient-level diagnostic tools. Our work further discusses the limitations and overhead of the paradigm, aiming to provide insights and actionable guidance for more rigorous LLM unlearning research.
- Abstract(参考訳): 対実的チューニング(CFT)は、望ましくないコンテンツの代わりに代替的架空の知識を生成するためのトレーニングモデルによるLarge Language Model(LLM)アンラーニングのための有望なパラダイムとして登場した。
しかし,本研究では,このパラダイムが他のパラダイムを過小評価しており,(1)反ファクトコーパス内の相互の不整合がパラメータ最適化を阻害する矛盾する勾配を誘発する知識コンフリクト,(2)疑似目標の適合が持続的形成バイアスを注入し,無関係領域における幻覚率を膨らませる知識コンフリクト,という2つの見過ごされた落とし穴が指摘されている。
これらの問題を体系的に診断するために,新しいトレードオフ指標と勾配レベルの診断ツールを備えた拡張ベンチマークRWKU+を導入する。
我々の研究は、より厳密なLLMアンラーニング研究のための洞察と実践可能なガイダンスを提供することを目的として、パラダイムの限界とオーバーヘッドをさらに議論する。
関連論文リスト
- Diversity in Large Language Models under Supervised Fine-Tuning [15.119045051735633]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) とユーザ意図の整合に不可欠であるが、生成的多様性を抑制すると考えられている。
本研究では,既存の知識を忘れることと,微調整データセット内の低周波パターンを忘れることの2つの主要な要因について考察する。
評価の結果,SFT後では発生が狭まることが確認され,この効果を説明する仮説が強化された。
論文 参考訳(メタデータ) (2026-04-30T20:20:59Z) - Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
本稿では,マルチタスク学習のための新しい2段階L2Dフレームワークを提案する。
提案手法は2段階のサロゲート損失ファミリーを利用し,Bayes-consistentと$(mathcalG, MathcalR)$-consistentの両方を証明した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。