論文の概要: ReactBench: A Benchmark for Topological Reasoning in MLLMs on Chemical Reaction Diagrams
- arxiv url: http://arxiv.org/abs/2604.15994v2
- Date: Thu, 23 Apr 2026 15:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:05.996447
- Title: ReactBench: A Benchmark for Topological Reasoning in MLLMs on Chemical Reaction Diagrams
- Title(参考訳): ReactBench: 化学反応図によるMLLMのトポロジ的推論のベンチマーク
- Authors: Qiang Xu, Shengyuan Bai, Yu Wang, He Cao, Leqing Chen, Yuanyuan Liu, Bin Feng, Zijing Liu, Yu Li,
- Abstract要約: MLLM(Multimodal Large Language Models)は、個々の視覚的要素を認識し、単純な線形図形上の推論に優れる。
化学反応図による構造的推論の基本的な制限を明らかにするベンチマークであるReactBenchを紹介する。
我々のベンチマークは、4つの階層的なタスク次元にわたる1,618のエキスパートアノテーション付きQAペアで構成されている。
- 参考スコア(独自算出の注目度): 21.265249070149842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) excel at recognizing individual visual elements and reasoning over simple linear diagrams. However, when faced with complex topological structures involving branching paths, converging flows, and cyclic dependencies, their reasoning capabilities degrade sharply, even on tasks as basic as counting endpoints. Existing benchmarks fail to probe this gap, focusing on semantic comprehension rather than structural reasoning. We introduce ReactBench, a benchmark that reveals fundamental limitations in structural reasoning through chemical reaction diagrams. These real-world scientific diagrams offer an ideal testbed because they naturally span diverse structures from linear chains to cyclic graphs, while requiring both precise local recognition and coherent global reasoning. Our benchmark comprises 1,618 expert-annotated QA pairs across four hierarchical task dimensions. Extensive evaluation across 17 MLLMs reveals a significant performance gap exceeding 30% between anchor-based tasks and holistic structural reasoning tasks. Controlled ablations confirm this bottleneck lies in reasoning, not perception. These findings expose a fundamental deficit in structural understanding and establish directions for advancing visual reasoning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、個々の視覚的要素を認識し、単純な線形図形上の推論に優れる。
しかし、分岐経路、合流流、循環依存を含む複雑なトポロジ構造に直面した場合、それらの推論能力は、エンドポイントを数えるのと同じくらい基本的なタスクであっても、急激に低下する。
既存のベンチマークでは、構造的推論よりも意味的理解に重点を置いて、このギャップを探索することができない。
化学反応図による構造的推論の基本的な制限を明らかにするベンチマークであるReactBenchを紹介する。
これらの実世界の科学図は、線形鎖から巡回グラフまで様々な構造に自然に分布し、正確な局所認識とコヒーレントな大域的推論の両方を必要とするため、理想的なテストベッドを提供する。
我々のベンチマークは、4つの階層的なタスク次元にわたる1,618のエキスパートアノテーション付きQAペアで構成されている。
17個のMLLMにわたる広範囲な評価では、アンカーベースタスクと全体的構造的推論タスクの間に30%を超える大きなパフォーマンスギャップが示される。
制御された説明は、このボトルネックが知覚ではなく推論にあることを裏付ける。
これらの知見は、構造的理解の根本的な欠陥を明らかにし、視覚的推論を進めるための方向性を確立している。
関連論文リスト
- Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [40.143148197878354]
我々は3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを紹介した。
微調整形推論能力の異なる監督形式について検討する。
自然言語の監督は一般化において優れており、シンボリックな監督は構造的に健全な原子推論のステップを打つのに優れている。
論文 参考訳(メタデータ) (2025-06-05T09:34:12Z) - Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures [21.390740746718947]
DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - GRS-QA -- Graph Reasoning-Structured Question Answering Dataset [50.223851616680754]
グラフ推論-構造化質問応答データセット(GRS-QA)を導入する。
既存のM-QAデータセットとは異なり、GRS-QAは推論グラフを構築することで複雑な推論経路を明示的にキャプチャする。
実験により, LLMは, 様々な推論構造を用いて, 問合せ処理を行う際に, 異なる性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-01T05:14:03Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。