論文の概要: MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs
- arxiv url: http://arxiv.org/abs/2508.10264v1
- Date: Thu, 14 Aug 2025 01:17:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.150175
- Title: MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs
- Title(参考訳): MRFD:LVLMにおける幻覚の緩和のための自己整合性を用いた多次元核融合復号法
- Authors: Haonan Ge, Yiwei Wang, Ming-Hsuan Yang, Yujun Cai,
- Abstract要約: MRFD (Multi-Region Fusion Decoding) は、領域間の一貫性をモデル化することにより、現実のグラウンド化を改善する訓練自由復号法である。
MRFDは、クロスアテンションを用いて正常な領域を特定し、それぞれの初期応答を生成し、Jensen-Shannon Divergenceに基づいて信頼性ウェイトを算出する。
- 参考スコア(独自算出の注目度): 56.18011735042445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown strong performance across multimodal tasks. However, they often produce hallucinations -- text that is inconsistent with visual input, due to the limited ability to verify information in different regions of the image. To address this, we propose Multi-Region Fusion Decoding (MRFD), a training-free decoding method that improves factual grounding by modeling inter-region consistency. MRFD identifies salient regions using cross-attention, generates initial responses for each, and computes reliability weights based on Jensen-Shannon Divergence (JSD) among the responses. These weights guide a consistency-aware fusion of per-region predictions, using region-aware prompts inspired by Chain-of-Thought reasoning. Experiments across multiple LVLMs and benchmarks show that MRFD significantly reduces hallucinations and improves response factuality without requiring model updates.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はマルチモーダルタスクにおいて高い性能を示す。
しかし、画像の異なる領域の情報を検証する能力に制限があるため、視覚的な入力と矛盾しない幻覚を生成することが多い。
そこで本研究では,領域間の一貫性をモデル化することで,現実のグラウンド化を改善する訓練自由復号法であるMRFDを提案する。
MRFDは、クロスアテンションを用いて正常な領域を特定し、それぞれの初期応答を生成し、応答間のJensen-Shannon Divergence(JSD)に基づいて信頼性ウェイトを算出する。
これらの重みは、領域ごとの予測の整合性を考慮した融合を導いており、領域毎の推論に着想を得た領域対応のプロンプトを用いている。
複数のLVLMおよびベンチマーク実験により、MDFDはモデル更新を必要とせずに幻覚を著しく低減し、応答事実性を改善することが示されている。
関連論文リスト
- ReLoop: "Seeing Twice and Thinking Backwards" via Closed-loop Training to Mitigate Hallucinations in Multimodal understanding [0.053801353100098995]
MLLM(Multimodal Large Language Models)は、オープンな視覚的質問応答において顕著な進歩を遂げている。
MLLMは幻覚に弱いままであり、信頼性と事実の整合性にとって重要な課題である。
クロスモーダル理解のためのマルチモーダル整合性を促進する統合クローズドループトレーニングフレームワークであるReLoopを提案する。
論文 参考訳(メタデータ) (2025-07-07T12:40:48Z) - HalluRNN: Mitigating Hallucinations via Recurrent Cross-Layer Reasoning in Large Vision-Language Models [11.826832299262199]
HalluRNNは繰り返しの層間推論によってモデルの安定性を向上させる。
DG-DPUモジュールのみを微調整することで、HaluRNNは複数のベンチマークで堅牢で堅牢なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-21T04:56:55Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding [5.71478837100808]
LVLM(Large Vision-Language Models)は、存在しないオブジェクトや既存のオブジェクトを誤って含むことによって、視覚的コンテンツを不正確に反映する記述を生成する。
本稿では,入力画像をサブイメージに分割し,アテンションマップを通じて重みを割り当てることでロジット分布を結合する新しい戦略であるEnsemble Decoding (ED)を提案する。
提案手法は,提案手法の有効性を検証し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-23T06:35:43Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models [16.91226496250909]
マルチモーダルな理解は、粗いものから細かいものへと、2つの段階に分けられる。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的なプロンプトエンジニアリングにより、関連する領域に対するモデルの焦点をさらに強化する。
論文 参考訳(メタデータ) (2024-12-22T05:42:40Z) - Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs [3.8318712731382054]
LMMの中間層からコンテキストトークンを埋め込む洗練された方法であるContextualLensを導入する。
このアプローチは、行動やOCRを含む様々なカテゴリーにおける幻覚の検出と接地を著しく改善する。
我々の貢献は、より信頼性が高く解釈可能なマルチモーダルモデルへの道を開いた。
論文 参考訳(メタデータ) (2024-11-28T14:47:55Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。