論文の概要: Beyond Superficial Unlearning: Sharpness-Aware Robust Erasure of Hallucinations in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2601.16527v1
- Date: Fri, 23 Jan 2026 07:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.596428
- Title: Beyond Superficial Unlearning: Sharpness-Aware Robust Erasure of Hallucinations in Multimodal LLMs
- Title(参考訳): 表面的未学習を超えて:マルチモーダルLLMにおける幻覚のシャープネスを意識したロバスト消去
- Authors: Xianya Fang, Feiyang Ren, Xiang Chen, Yu Tian, Zhen Bi, Haiyang Yu, Sheng-Jun Huang,
- Abstract要約: マルチモーダル LLM は強力であるが、既存の実体を記述し信頼性を損なう物体幻覚の傾向が強い。
標準消去は表面的な抑制のみを達成し、シャープなミニマでモデルをトラップする。
本研究では,未学習を目標の最小値最適化問題とみなすSAREを提案し,損失景観を明示的に平らにするためにTargeted-SAM機構を用いる。
- 参考スコア(独自算出の注目度): 38.4534971888352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal LLMs are powerful but prone to object hallucinations, which describe non-existent entities and harm reliability. While recent unlearning methods attempt to mitigate this, we identify a critical flaw: structural fragility. We empirically demonstrate that standard erasure achieves only superficial suppression, trapping the model in sharp minima where hallucinations catastrophically resurge after lightweight relearning. To ensure geometric stability, we propose SARE, which casts unlearning as a targeted min-max optimization problem and uses a Targeted-SAM mechanism to explicitly flatten the loss landscape around hallucinated concepts. By suppressing hallucinations under simulated worst-case parameter perturbations, our framework ensures robust removal stable against weight shifts. Extensive experiments demonstrate that SARE significantly outperforms baselines in erasure efficacy while preserving general generation quality. Crucially, it maintains persistent hallucination suppression against relearning and parameter updates, validating the effectiveness of geometric stabilization.
- Abstract(参考訳): マルチモーダル LLM は強力であるが、既存の実体を記述し信頼性を損なう物体幻覚の傾向が強い。
最近のアンラーニング手法は、これを緩和しようとするが、重要な欠陥、すなわち構造的脆弱さを識別する。
軽度再学習後に幻覚が破滅的に回復するシャープ・ミニマにおいて, 標準的な消去は表面的抑制のみを達成することを実証的に実証した。
幾何的安定性を確保するために,未学習を目標の最小値最適化問題とみなすSAREを提案する。
シミュレーションした最悪のパラメータ摂動下での幻覚を抑えることにより、我々のフレームワークは重量シフトに対して頑健な除去を確実にする。
総合的な実験により、SAREは一般的な生成品質を維持しつつ、消去効果において基線を著しく上回っていることが示された。
重要なことは、再学習とパラメータ更新に対する持続的な幻覚抑制を維持し、幾何学的安定化の有効性を検証することである。
関連論文リスト
- Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization [37.965539404740774]
より安定したパラメータ領域を明示的に求める双方向フィードバック誘導最適化フレームワークを提案する。
WMDP と MUSE のベンチマーク実験により,本手法は再学習および脱獄攻撃に対して極めて堅牢であることが示された。
論文 参考訳(メタデータ) (2025-09-24T15:23:46Z) - Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering [83.63437999696954]
大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。
本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:12:06Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Enhancing Sharpness-Aware Optimization Through Variance Suppression [48.908966673827734]
この研究は損失関数の幾何学を取り入れ、そこでは「平坦なミニマ」の近傍が一般化能力を高める。
地区内の敵対的な摂動パラメータによる最大損失を最小化することで「平坦な谷」を求める。
損失関数のシャープさを考慮に入れることが重要であるが、そのような「過剰にフレンドリーな敵」は極端に一般化のレベルを縮めることができる。
論文 参考訳(メタデータ) (2023-09-27T13:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。