論文の概要: Peek-a-Boo Reasoning: Contrastive Region Masking in MLLMs
- arxiv url: http://arxiv.org/abs/2512.08976v1
- Date: Wed, 03 Dec 2025 16:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.23765
- Title: Peek-a-Boo Reasoning: Contrastive Region Masking in MLLMs
- Title(参考訳): Peek-a-Boo推論:MLLMにおける対照的な領域マスキング
- Authors: Isha Chaturvedi, Anjana Nair, Yushen Li, Adhitya Rajendra Kumar, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Vasu Sharma,
- Abstract要約: トレーニングフリー診断であるContrastive Region Maskingを紹介する。
MLLM(Multimodal large language model)は,チェーン・オブ・ソート(CoT)推論の各ステップにおいて,特定の視覚領域にどのように依存するかを明らかにする。
- 参考スコア(独自算出の注目度): 8.669514778798222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Contrastive Region Masking (CRM), a training free diagnostic that reveals how multimodal large language models (MLLMs) depend on specific visual regions at each step of chain-of-thought (CoT) reasoning. Unlike prior approaches limited to final answers or attention maps, CRM provides causal, step-level attri- bution by systematically masking annotated regions and contrasting the resulting reasoning traces with unmasked baselines. Applied to datasets such as VisArgs, CRM reveals distinct failure modes: some models preserve reasoning structure, but hallucinate when evidence is missing, while others ground tightly to visual cues yet collapse under perturbations. By shifting the evaluation from correctness of an- swers to faithfulness of reasoning, CRM reframes visual benchmarks as diagnostic tools, highlighting the need for multimodal evaluation frameworks that measure not just performance, but also robustness and fidelity of reasoning.
- Abstract(参考訳): Contrastive Region Masking (CRM) は、マルチモーダルな大規模言語モデル(MLLM)が、チェーン・オブ・シークレット(CoT)推論の各ステップにおける特定の視覚的領域にどのように依存しているかを示す学習自由診断である。
最終回答やアテンションマップに制限された以前のアプローチとは異なり、CRMは、アノテートされた領域を体系的にマスキングし、その結果の推論トレースを未成熟のベースラインと対比することによって、因果的、ステップレベルのアトリビュートを提供する。
VisArgsのようなデータセットに適用すると、CRMは異なる障害モードを明らかにしている。いくつかのモデルは推論構造を保存するが、証拠が欠如している時に幻覚を与える。
CRMは、評価をAIの正しさから推論の忠実さにシフトすることで、ビジュアルベンチマークを診断ツールとして再設計し、パフォーマンスだけでなく、推論の堅牢性や忠実性も測定するマルチモーダル評価フレームワークの必要性を強調している。
関連論文リスト
- MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models [49.32415342913976]
マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
論文 参考訳(メタデータ) (2025-12-09T04:13:31Z) - MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs [57.931366749890906]
MRFD (Multi-Region Fusion Decoding) は、領域間の一貫性をモデル化することにより、現実のグラウンド化を改善する訓練自由復号法である。
MRFDは、クロスアテンションを用いて正常な領域を特定し、それぞれの初期応答を生成し、Jensen-Shannon Divergenceに基づいて信頼性ウェイトを算出する。
論文 参考訳(メタデータ) (2025-08-14T01:17:39Z) - Joint Evaluation of Answer and Reasoning Consistency for Hallucination Detection in Large Reasoning Models [12.270274049887298]
トレースの推論は冗長あるいは論理的に矛盾する可能性があるため、新しい幻覚の源となる。
既存の幻覚検出法は主に回答レベルの不確実性に焦点を当てている。
LRMにおける幻覚検出に適した新しいフレームワークであるRASを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:54:04Z) - Semi-structured LLM Reasoners Can Be Rigorously Audited [43.72257027288094]
半構造化推論モデル (SSRM) を導入し, 推論の半構造化表現を生成する訓練を行った。
SSRMは、実行不可能なPythonの構文で推論トレースを生成し、各推論ステップを指定し、入力と出力をマークする。
これらの手法はすべて、予測可能な推論エラーを効果的にフラグできることを示す。
論文 参考訳(メタデータ) (2025-05-30T05:06:10Z) - Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。