論文の概要: When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2510.15421v1
- Date: Fri, 17 Oct 2025 08:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.534408
- Title: When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs
- Title(参考訳): MLLMにおけるアクティブ推論の限界を明らかにする
- Authors: Hongcheng Liu, Pingjie Wang, Yuhao Wang, Siqu Ou, Yanfeng Wang, Yu Wang,
- Abstract要約: MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。
既存の評価のほとんどは受動的推論に重点を置いており、モデルが完全な情報の下でステップバイステップの推論を行う。
MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか?
我々はMLLMに、タスク固有の事前情報のない候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練するよう要求する。
20個の優れたMLLMを評価したところ、アクティブな推論ラグがパッシブな設定ではるかに遅れていることが分かり、かなりの余地があることが示唆された。
- 参考スコア(独自算出の注目度): 29.198301196459834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown strong capabilities across a broad range of benchmarks. However, most existing evaluations focus on passive inference, where models perform step-by-step reasoning under complete information. This setup is misaligned with real-world use, where seeing is not enough. This raises a fundamental question: Can MLLMs actively acquire missing evidence under incomplete information? To bridge this gap, we require the MLLMs to actively acquire missing evidence and iteratively refine decisions under incomplete information, by selecting a target image from a candidate pool without task-specific priors. To support systematic study, we propose GuessBench, a benchmark with both perception-oriented and knowledge-oriented images for evaluating active reasoning in MLLMs. We evaluate 20 superior MLLMs and find that performance on active reasoning lags far behind it on passive settings, indicating substantial room for improvement. Further analysis identifies fine-grained perception and timely decision-making as key challenges. Ablation studies show that perceptual enhancements benefit smaller models, whereas thinking-oriented methods provide consistent gains across model sizes. These results suggest promising directions for future research on multimodal active reasoning.
- Abstract(参考訳): MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。
しかし、既存の評価のほとんどは受動的推論に重点を置いており、そこではモデルが完全な情報の下でステップバイステップの推論を行う。
このセットアップは、見るだけでは不十分な現実世界の使い方と間違っています。
MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか?
このギャップを埋めるために、MLLMはタスク固有の事前情報なしで候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練する必要がある。
体系的な研究を支援するため,MLLMにおける能動的推論評価のための知覚指向画像と知識指向画像のベンチマークであるGuessBenchを提案する。
我々は,20個の優れたMLLMを評価し,それより遥かに遅れた能動的推論における性能を受動的に評価し,改善の余地があることを示唆した。
さらなる分析は、微粒な認識とタイムリーな意思決定を重要な課題として挙げる。
アブレーション研究は、知覚的拡張がより小さなモデルに利益をもたらすのに対して、思考指向の手法はモデルサイズ全体で一貫した利得をもたらすことを示している。
これらの結果は,今後の多モーダル能動推論研究の方向性を示唆している。
関連論文リスト
- From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。
AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。
AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文 参考訳(メタデータ) (2025-06-09T23:56:41Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文 参考訳(メタデータ) (2024-02-27T07:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。