Fugu-MT 論文翻訳(概要): MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

論文の概要: MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

arxiv url: http://arxiv.org/abs/2603.12266v1
Date: Thu, 12 Mar 2026 17:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.307045
Title: MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
Title（参考訳）: MM-CondChain: 深層合成推論のためのプログラム検証ベンチマーク
Authors: Haozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin,
Abstract要約: MM-CondChainは、視覚的に深い合成推論のためのベンチマークである。 MM-CondChainは多層推論チェーンとして構成され、各層は非自明な構成条件を含む。プランナーは構成条件の層間生成をオーケストレーションし、検証可能なプログラム中間表現(VPIR)は各層の状態が機械的に検証可能であることを保証する。
参考スコア（独自算出の注目度）: 37.02901476078596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、GUIのナビゲートのような視覚的なワークフローの実行にますます使われており、次のステップは、検証済みの視覚的構成条件(例えば、「許可ダイアログが現れ、インターフェースの色が緑であれば、Allowをクリックする」など)に依存する。既存のベンチマークでは、深く連鎖した構成条件ではなく、浅い構成や独立した制約に焦点を当てている。本稿では,深層合成推論のためのベンチマークであるMM-CondChainを紹介する。各ベンチマークインスタンスは多層推論チェーンとして構成され、各レイヤは視覚的エビデンスに基づいて、複数のオブジェクト、属性、関係から構築された非自明な構成条件を含む。正しく答えるためには、MLLMはイメージを詳細に認識し、各ステップで複数の視覚要素を解析し、最終的な結果への実行パスに従う必要がある。このようなワークフロースタイルのデータを高度に構築するために,Plannerは,各レイヤの状態が機械的に検証可能であることを保証するVPIR(Verible Programmatic Intermediate Representation)を用いて,階層ごとに構成条件を生成するエージェント合成パイプラインを提案する。次に、Composerはこれらの検証済みのレイヤを完全な命令に組み立てる。このパイプラインを用いて、自然画像、データチャート、GUIトラジェクトリの3つの視覚領域にまたがるベンチマークを構築する。 MLLMの実験では、最強のモデルでさえ53.33パスF1しか達成できず、ハードネガティブに急降下し、深度や述語複雑性が増大するにつれて、深い構成的推論が依然として根本的な課題であることが確認されている。

関連論文リスト

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。製品ドメインは、上着と下着、宝石、靴、家具の5つ。 MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文参考訳（メタデータ） (2026-03-01T12:53:47Z)
Referring Layer Decomposition [25.128453386102887]
単一のRGB画像から完全なRGBA層を予測するRLD(Referring Layer Decomposition)タスクを導入する。コアとなるRefLadeは、スケーラブルなデータエンジンによって生成される1.11Mイメージ層プロンプトトリプレットからなる大規模なデータセットです。本稿では,プロンプト条件付き層分解のためのシンプルなベースラインRefLayerを提案し,高い視覚的忠実度とセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2026-02-22T22:05:17Z)
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文参考訳（メタデータ） (2025-11-28T03:09:40Z)
CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation [54.53371540755023]
推論セグメンテーションは、複雑でしばしば暗黙的な指示によって参照されるターゲットに対して、ピクセル精度の高いマスクを求める。我々は、限定ラベル付きデータとラベルなし画像の大きなコーパスから共同で学習する半教師付き推論セグメンテーションフレームワークCORAを提案する。 CORAは最先端の結果を達成し、都市景観理解のためのベンチマークデータセットであるCityscapesにラベル付きイメージを100個まで必要としています。
論文参考訳（メタデータ） (2025-11-21T20:14:55Z)
How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding [39.342366994703376]
MLLMが階層間の視覚的およびテキスト的入力をどのように処理するかを分析するための探索フレームワークを導入する。ステージ単位の構造は、視覚的トークン化、命令チューニングデータ、事前学習コーパスの様々なバリエーションで安定しているが、各ステージシフトごとに特定の層が割り当てられることが示される。
論文参考訳（メタデータ） (2025-08-27T21:22:01Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization [13.178750787401263]
VisPathは構造化されたマルチステージ処理を通じて、不特定クエリを処理する。最初はChain-of-Thoughtプロンプトを通じてユーザ入力をリフォームする。 VisPathは、最適な最終結果を合成するために集約されたターゲットフィードバックを生成する。
論文参考訳（メタデータ） (2025-02-16T14:09:42Z)
HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。 HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文参考訳（メタデータ） (2024-12-07T15:47:49Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。