論文の概要: CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution
- arxiv url: http://arxiv.org/abs/2511.21717v1
- Date: Wed, 19 Nov 2025 12:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.360121
- Title: CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution
- Title(参考訳): CrossCheck-Bench:マルチモーダル衝突解決における構成障害の診断
- Authors: Baoliang Tian, Yuxuan Si, Jilong Wang, Lingyao Li, Zhongyuan Bao, Zineng Zhou, Tao Wang, Sixu Li, Ziyao Xu, Mingze Wang, Zhouzhuo Zhang, Zhihao Wang, Yike Yun, Ke Tian, Ning Yang, Minghui Qiu,
- Abstract要約: CrossCheck-Benchは、マルチモーダル入力における矛盾検出を評価するための診断ベンチマークである。
タスクが知覚的マッチングから論理的矛盾検出に移行するにつれて、13の最先端の視覚言語モデルを評価し、一貫した性能低下を観察する。
- 参考スコア(独自算出の注目度): 20.823419395675412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models are primarily trained and evaluated on aligned image-text pairs, which leaves their ability to detect and resolve real-world inconsistencies largely unexplored. In open-domain applications visual and textual cues often conflict, requiring models to perform structured reasoning beyond surface-level alignment. We introduce CrossCheck-Bench, a diagnostic benchmark for evaluating contradiction detection in multimodal inputs. The benchmark adopts a hierarchical task framework covering three levels of reasoning complexity and defines seven atomic capabilities essential for resolving cross-modal inconsistencies. CrossCheck-Bench includes 15k question-answer pairs sourced from real-world artifacts with synthetically injected contradictions. The dataset is constructed through a multi-stage annotation pipeline involving more than 450 expert hours to ensure semantic validity and calibrated difficulty across perception, integration, and reasoning. We evaluate 13 state-of-the-art vision-language models and observe a consistent performance drop as tasks shift from perceptual matching to logical contradiction detection. Most models perform well on isolated entity recognition but fail when multiple clues must be synthesized for conflict reasoning. Capability-level analysis further reveals uneven skill acquisition, especially in tasks requiring multi-step inference or rule-based validation. Additional probing shows that conventional prompting strategies such as Chain-of-Thought and Set-of-Mark yield only marginal gains. By contrast, methods that interleave symbolic reasoning with grounded visual processing achieve more stable improvements. These results highlight a persistent bottleneck in multimodal reasoning and suggest new directions for building models capable of robust cross-modal verification.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、主に整列した画像テキストペアに基づいて訓練され、評価される。
オープンドメインアプリケーションでは、視覚的およびテキスト的キューはしばしば矛盾し、表面レベルのアライメントを超えた構造的推論を行う必要がある。
マルチモーダル入力における矛盾検出を評価するための診断ベンチマークであるCrossCheck-Benchを紹介する。
ベンチマークでは3段階の推論複雑性をカバーする階層的なタスクフレームワークを採用し、クロスモーダルな矛盾を解決するのに不可欠な7つのアトミック機能を定義している。
CrossCheck-Benchには、実世界の人工物から合成的に注入された矛盾のある15kの質問応答対が含まれている。
データセットは、450以上の専門家時間を含む多段階のアノテーションパイプラインを通じて構築され、知覚、統合、推論のセマンティックな妥当性とキャリブレーションの難しさを保証する。
タスクが知覚的マッチングから論理的矛盾検出に移行するにつれて、13の最先端の視覚言語モデルを評価し、一貫した性能低下を観察する。
ほとんどのモデルは、分離されたエンティティ認識でうまく機能するが、競合推論のために複数の手がかりを合成する必要がある場合は失敗する。
能力レベルの分析は、特に多段階推論やルールベースの検証を必要とするタスクにおいて、不均一なスキル獲得をさらに明らかにする。
さらなる調査では、従来型のChain-of-ThoughtやSet-of-Markのようなプロンプト戦略は限界利得しか得られないことが示されている。
対照的に、接地された視覚処理とシンボリック推論をインターリーブする手法は、より安定した改善を実現する。
これらの結果は、マルチモーダル推論における永続的なボトルネックを強調し、ロバストなクロスモーダル検証が可能なモデルを構築するための新しい方向性を提案する。
関連論文リスト
- CLASH: A Benchmark for Cross-Modal Contradiction Detection [15.134491772506196]
CLASHはマルチモーダル矛盾検出のための新しいベンチマークである。
COCOイメージは、制御対象レベルの矛盾や属性レベルの矛盾を含む矛盾したキャプションと組み合わせられる。
論文 参考訳(メタデータ) (2025-11-24T15:09:07Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。