論文の概要: Mitigating Hallucinations in Large Vision-Language Models via Causal Route Gating
- arxiv url: http://arxiv.org/abs/2605.24024v1
- Date: Wed, 20 May 2026 13:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.541728
- Title: Mitigating Hallucinations in Large Vision-Language Models via Causal Route Gating
- Title(参考訳): 因果経路ゲーティングによる大規模視線モデルにおける幻覚の緩和
- Authors: Zhe Cheng, Wenyu Chen, Fode Zhang, Dehuan Shen,
- Abstract要約: 大型視覚言語モデル(LVLM)は、画像がまだサポートしていない内容に幻覚を与えることが多い。
経路競合から重要な障害モードが生じることを示し、視覚的証拠に対する言語的先行をデコーダが追従する原因となることを示す。
本稿では,各注意を視覚的経路とテキスト経路に分解する,学習不要で意思決定に整合した介入を提案する。
- 参考スコア(独自算出の注目度): 4.514623850633406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) often hallucinate content that is fluent yet unsupported by the image, limiting their reliability in real-world deployment. We show that a key failure mode arises from route competition: even when visual tokens receive attention, the final token decision can be dominated by the textual pathway, causing the decoder to follow linguistic priors over visual evidence. To mitigate this, we propose a training-free, decision-aligned intervention that decomposes each attention head into a visual route and a text route, and estimates their token-level effects using an efficient one-forward/one-gradient approximation. These estimates reveal route conflict within heads and identify prior-dominant ones, enabling selective suppression of only the text route while keeping the visual route intact. Across five benchmarks spanning discriminative and generative settings, our method consistently reduces hallucination-related errors across models with limited impact on overall multimodal performance, while incurring a modest inference-time overhead.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)は、画像がまだサポートしていないコンテンツを幻覚させ、実際のデプロイメントにおける信頼性を制限します。
視覚的トークンが注意を引いたとしても、最終的なトークン決定はテキストの経路によって支配され、デコーダは視覚的証拠よりも言語的に先行する。
これを軽減するために,各注意を視覚的経路とテキスト経路に分解する学習自由な決定整合的介入を提案し,そのトークンレベル効果を効率的な1進1次近似を用いて推定する。
これらの推定は、頭の中の経路衝突を明らかにし、先行優位な経路を識別し、視覚経路をそのまま保ちながら、テキスト経路のみを選択的に抑制することを可能にする。
判別的および生成的設定にまたがる5つのベンチマークにおいて、本手法は、最小限の推論時間オーバーヘッドを発生させながら、全体マルチモーダル性能に限定したモデル間の幻覚関連誤差を連続的に低減する。
関連論文リスト
- Mitigating Object Hallucinations in Vision-Language Models through Region-Aware Attention Recalibration [7.647944993041615]
本研究では,急激な乱れに頼らずに,動的に意味的ドリフトを補正する学習自由推論手法を提案する。
様々な注意点にまたがる不規則な統計的中間点を計算することにより、信頼性の高い視覚表現のための安定なアンカーを確立する。
この再校正プロセスは、生成頻度と言語前兆を完全に保ちながら、視覚的意味的ミスアライメントを効果的に補正する。
論文 参考訳(メタデータ) (2026-05-24T09:14:49Z) - CHASD: Language Increment-Calibrated Contrastive Decoding against Hallucination in LVLMs [16.77211535169488]
本稿では,大規模視覚言語モデルのためのコントラスト型幻覚認識ステップワイドデコーディング(CHASD)を提案する。
CHASDは、次のトークンの最大確率が閾値以下である場合にのみ、不確実性駆動の信頼ゲートを使用してコントラスト分岐を活性化する。
実験の結果,CHASDは強いトレーニングのないベースラインよりも幻覚関連指標を向上し,競争的推論効率が向上することが示された。
論文 参考訳(メタデータ) (2026-05-22T08:03:12Z) - Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction [49.96701537295129]
LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。
既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。
幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
論文 参考訳(メタデータ) (2026-04-09T07:31:27Z) - Focus Matters: Phase-Aware Suppression for Hallucination in Vision-Language Models [8.304027910542446]
大規模視覚言語モデル(LVLM)における視覚エンコーダの内部的注意ダイナミクスについて検討する。
分析の結果,幻覚の挙動は集中期において注目度が低いトークンに特に敏感であることが判明した。
本稿では、フォーカスフェーズにおいて、このようなトークンを選択的に抑制する軽量な推論時間介入を提案する。
論文 参考訳(メタデータ) (2026-04-04T02:46:58Z) - ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration [71.21097024566285]
LVLM(Large-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い先行を抑えるために、言語的、単一段階の状態に依存している。
本研究では,適応的な文脈情報の統合を通じて幻覚を緩和する学習自由推論介入手法であるAdaptive Context in VisionTegration (ACT)を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:49:50Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。