論文の概要: ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations
- arxiv url: http://arxiv.org/abs/2510.06292v1
- Date: Tue, 07 Oct 2025 10:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.104146
- Title: ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations
- Title(参考訳): ChainMPQ:関係幻覚を緩和するインターリーブテキスト画像推論チェイン
- Authors: Yike Wu, Yiwei Wang, Yujun Cai,
- Abstract要約: 関係幻覚は 最大の割合を占めるが ほとんど注目されていない
本稿では,大規模視覚言語モデルにおける関係推論を改善する学習自由度手法であるChainMPQを提案する。
複数のLVLMとベンチマークの実験により、ChainMPQは関係幻覚を著しく減少させることが示された。
- 参考スコア(独自算出の注目度): 32.56617031012578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Vision-Language Models (LVLMs) achieve strong performance in multimodal tasks, hallucinations continue to hinder their reliability. Among the three categories of hallucinations, which include object, attribute, and relation, relation hallucinations account for the largest proportion but have received the least attention. To address this issue, we propose ChainMPQ (Multi-Perspective Questions guided Interleaved Chain of Image and Text), a training-free method that improves relational inference in LVLMs by utilizing accumulated textual and visual memories. ChainMPQ first extracts subject and object keywords from the question to enhance the corresponding image regions. It then constructs multi-perspective questions that focus on the three core components of a relationship: the subject, the object, and the relation that links them. These questions are sequentially input to the model, with textual and visual memories from earlier steps providing supporting context for subsequent ones, thereby forming an interleaved chain of images and text that guides progressive relational reasoning. Experiments on multiple LVLMs and benchmarks show that ChainMPQ substantially reduces relation hallucinations, while ablation studies further validate the effectiveness of its three core modules.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はマルチモーダルタスクにおいて高い性能を発揮するが、幻覚は信頼性を妨げ続けている。
対象、属性、関係を含む3つの幻覚のうち、関係幻覚が最も大きな割合を占めるが、最も注目されていない。
そこで本稿では,LVLMにおける関係推論を改善する学習自由度手法であるChainMPQ(Multi-Perspective Questions Guided Interleaved Chain of Image and Text)を提案する。
ChainMPQはまず質問から対象と対象のキーワードを抽出し、対応する画像領域を強化する。
次に、対象、対象、それらをリンクする関係という、関係の3つのコアコンポーネントに焦点を当てた、多視点の質問を構築する。
これらの質問はモデルに逐次入力され、初期ステップからのテキストと視覚の記憶によって、後続のステップのサポートコンテキストが提供され、プログレッシブリレーショナルリレーショナル推論を導く画像とテキストのインターリーブ連鎖を形成する。
複数のLVLMとベンチマークの実験では、ChainMPQは関係幻覚を著しく低減し、アブレーション研究は3つのコアモジュールの有効性をさらに検証している。
関連論文リスト
- MIHBench: Benchmarking and Mitigating Multi-Image Hallucinations in Multimodal Large Language Models [73.20126092411776]
マルチイメージMLLMにおける幻覚に関する最初の体系的研究を行う。
複数の画像に対してオブジェクト関連幻覚を評価するためのベンチマークであるMIHBenchを提案する。
MIHBenchは、Multi-Image Object Existence Hallucination、Multi-Image Object Count Hallucination、Object Identity Consistency Hallucinationの3つのコアタスクから構成される。
論文 参考訳(メタデータ) (2025-08-01T15:49:29Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models [69.79709804046325]
視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
論文 参考訳(メタデータ) (2024-06-24T08:42:42Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。