論文の概要: Rethinking Visual Neglect: Steering via Context-Preference for MLLM Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2605.27993v1
- Date: Wed, 27 May 2026 05:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.774481
- Title: Rethinking Visual Neglect: Steering via Context-Preference for MLLM Hallucination Mitigation
- Title(参考訳): 視覚無視を再考する: MLLM幻覚軽減のためのコンテキスト参照によるステアリング
- Authors: Jingwen Wu, Xijun Zhang, Ge Song,
- Abstract要約: 画像は文脈として、モデルのパラメトリック知識とテキストコンテキストと同時に競合する、と我々は主張する。
本研究では,2つの意味論的に異なるコンテキスト参照ベクトルを抽出する,学習不要なフレームワークであるコンテキスト参照ステアリング(CAS)を提案する。
実験により、CASは遅延遅延を増大させることなくオブジェクト幻覚を実質的に緩和し、ネイティブテキスト生成の品質を保っていることが示された。
- 参考スコア(独自算出の注目度): 5.041079621345155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object hallucination remains a primary obstacle to the reliable deployment of Multimodal Large Language Models (MLLMs). Current inference-time mitigation methods mainly assume hallucinations stem from visual neglect, steering models to enhance visual reliance. In contrast, our systematic interventions on multiple MLLMs show that pushing toward more visual reliance may exacerbate hallucinations on some models, while less may mitigate hallucinations. This result suggests that attributing hallucinations solely to visual insufficiency is underdetermined. We argue that the image, as a context, simultaneously competes with the model's parametric knowledge and the textual context. For this, we propose a training-free framework, Context-Preference Activation Steering (CAS). It extracts two semantically distinct Context Preference Vectors (CPVs) via two small sets of designed conflict samples and applies them via single-pass signed residual injection at mid-early MLP layers during inference to control information reliance. Experiments show that CAS substantially mitigates object hallucinations without increasing decoding latency and preserves native text-generation quality.
- Abstract(参考訳): オブジェクト幻覚は、Multimodal Large Language Models (MLLM)の信頼性の高いデプロイにおいて、依然として主要な障害である。
現在の推測時間緩和法は、主に視覚的依存を高めるために視覚的無視、ステアリングモデルから幻覚を仮定する。
対照的に、複数のMLLMに対する系統的な介入は、より視覚的依存への推進が、一部のモデルにおいて幻覚を悪化させる可能性がある一方で、幻覚を緩和する可能性が低いことを示している。
この結果から,視覚障害のみによる幻覚の帰属が過小評価されていることが示唆された。
画像は文脈として、モデルのパラメトリック知識とテキストコンテキストと同時に競合する、と我々は主張する。
そこで本研究では,CAS(Context-Preference Activation Steering)という,トレーニング不要のフレームワークを提案する。
意味的に異なる2つのコンテキスト優先ベクトル(CPV)を2つの小さな設計された競合サンプルを通して抽出し、情報依存の推論中にMLP層にシングルパス署名された残差注入により適用する。
実験により、CASは復号遅延を増大させることなくオブジェクト幻覚を実質的に緩和し、ネイティブテキスト生成の品質を保っていることが示された。
関連論文リスト
- VCE: A zero-cost hallucination mitigation method of LVLMs via visual contrastive editing [70.82867621856968]
大きな視覚言語モデル(LVLM)は、しばしば物体幻覚(OH)に悩まされる
近年の研究では、幻覚の問題は言語の先行に起因している可能性が示唆されている。
本稿では視覚コントラスト編集(VCE)を提案する。
論文 参考訳(メタデータ) (2026-04-21T12:40:07Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。