論文の概要: Think 360°: Evaluating the Width-centric Reasoning Capability of MLLMs Beyond Depth
- arxiv url: http://arxiv.org/abs/2603.22689v1
- Date: Tue, 24 Mar 2026 01:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.237612
- Title: Think 360°: Evaluating the Width-centric Reasoning Capability of MLLMs Beyond Depth
- Title(参考訳): 360°:深度を超えるMLLMの幅中心推論能力の評価
- Authors: Mingrui Chen, Hexiong Yang, Haogeng Liu, Huaibo Huang, Ran He,
- Abstract要約: 推論幅は、広範囲な試行錯誤探索や多重制約最適化のためのモデルの能力に焦点を当てる。
難易度、質問タイプ、必要なスキルにまたがる12のモデルファミリーを評価した。
その結果、現在のモデルでは、一般的なVQAタスクや常識的なVQAタスクに強いパフォーマンスを示す一方で、深いシーケンシャルな思考連鎖と広い探索探索の組み合わせに苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 37.75493687006809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a holistic multimodal benchmark that evaluates the reasoning capabilities of MLLMs with an explicit focus on reasoning width, a complementary dimension to the more commonly studied reasoning depth. Specifically, reasoning depth measures the model's ability to carry out long-chain, sequential reasoning in which each step is tightly and rigorously linked to the next. Reasoning width tends to focus more on the model's capacity for broad trial-and-error search or multi-constrained optimization: it must systematically traverse many possible and parallelized reasoning paths, apply diverse constraints to prune unpromising branches, and identify valid solution routes for efficient iteration or backtracking. To achieve it, we carefully curate 1200+ high-quality multimodal cases spanning heterogeneous domains, and propose a fine-grained tree-of-thought evaluation protocol that jointly quantifies reasoning width and depth. We evaluate 12 major model families (over 30 advanced MLLMs) across difficulty tiers, question types, and required skills. Results show that while current models exhibit strong performance on general or common-sense VQA tasks, they still struggle to combine deep sequential thought chains with wide exploratory search to perform genuine insight-based reasoning. Finally, we analyze characteristic failure modes to provide possible directions for building MLLMs that reason not only deeper but also wider.
- Abstract(参考訳): 本稿では,より一般的に研究されている推論深さの相補的次元である推論幅に着目し,MLLMの推論能力を評価するための総合的マルチモーダルベンチマークを提案する。
具体的には、推論深度は、各ステップが厳密かつ厳密に次のステップにリンクされたシーケンシャルな推論であるロングチェーンを実行するモデルの能力を測定する。
推論幅は、広範囲な試行錯誤探索や多重制約最適化のためのモデルの能力に注目する傾向があり、多くの可能な並列化推論経路を体系的にトラバースし、未成熟の枝に様々な制約を適用し、効率的な反復やバックトラックのための有効な解経路を特定する必要がある。
そこで我々は,不均質ドメインにまたがる1200以上の高品質なマルチモーダルケースを慎重にキュレートし,推論の幅と深さを共同で定量化する,きめ細かいツリー・オブ・プリート評価プロトコルを提案する。
難易度,質問タイプ,必要なスキルの12種類の主要モデルファミリー(30以上の高度MLLM)を評価した。
その結果、現在のモデルでは、一般的なVQAタスクや常識的なVQAタスクに強いパフォーマンスを示す一方で、深いシーケンシャルな思考連鎖と広い探索探索とを組み合わせて、真の洞察に基づく推論を行うのに苦慮していることがわかった。
最後に,より深いだけでなく広い範囲でMLLMを構築するために,特徴的障害モードを分析した。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Are Large Language Models Capable of Deep Relational Reasoning? Insights from DeepSeek-R1 and Benchmark Comparisons [11.429641860623143]
3つの最先端大規模言語モデル(LLM)の推論能力の評価と比較を行った。
DeepSeek-R1は、複数のタスクと問題サイズにまたがる最高F1スコアを一貫して達成している。
DeepSeek-R1の長時間の連鎖反応の詳細な分析により、独自の計画と検証戦略が明らかになった。
論文 参考訳(メタデータ) (2025-06-29T07:37:49Z) - VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism [13.759089543987473]
我々は,モンテカルロ木探索と自己回帰機構を用いて,LVLMにおける推論を強化するトレーニングフリーアプローチであるVReSTを提案する。
VReSTは現在のプロンプトメソッドを超え、3つのマルチモーダル数学的推論ベンチマークで最先端のパフォーマンスを確保する。
論文 参考訳(メタデータ) (2025-06-10T11:02:36Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。
CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。