論文の概要: When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2510.15421v1
- Date: Fri, 17 Oct 2025 08:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.534408
- Title: When Seeing Is not Enough: Revealing the Limits of Active Reasoning in MLLMs
- Title(参考訳): MLLMにおけるアクティブ推論の限界を明らかにする
- Authors: Hongcheng Liu, Pingjie Wang, Yuhao Wang, Siqu Ou, Yanfeng Wang, Yu Wang,
- Abstract要約: MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。
既存の評価のほとんどは受動的推論に重点を置いており、モデルが完全な情報の下でステップバイステップの推論を行う。
MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか?
我々はMLLMに、タスク固有の事前情報のない候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練するよう要求する。
20個の優れたMLLMを評価したところ、アクティブな推論ラグがパッシブな設定ではるかに遅れていることが分かり、かなりの余地があることが示唆された。
- 参考スコア(独自算出の注目度): 29.198301196459834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown strong capabilities across a broad range of benchmarks. However, most existing evaluations focus on passive inference, where models perform step-by-step reasoning under complete information. This setup is misaligned with real-world use, where seeing is not enough. This raises a fundamental question: Can MLLMs actively acquire missing evidence under incomplete information? To bridge this gap, we require the MLLMs to actively acquire missing evidence and iteratively refine decisions under incomplete information, by selecting a target image from a candidate pool without task-specific priors. To support systematic study, we propose GuessBench, a benchmark with both perception-oriented and knowledge-oriented images for evaluating active reasoning in MLLMs. We evaluate 20 superior MLLMs and find that performance on active reasoning lags far behind it on passive settings, indicating substantial room for improvement. Further analysis identifies fine-grained perception and timely decision-making as key challenges. Ablation studies show that perceptual enhancements benefit smaller models, whereas thinking-oriented methods provide consistent gains across model sizes. These results suggest promising directions for future research on multimodal active reasoning.
- Abstract(参考訳): MLLM(Multimodal large language model)は、幅広いベンチマークで強力な機能を示している。
しかし、既存の評価のほとんどは受動的推論に重点を置いており、そこではモデルが完全な情報の下でステップバイステップの推論を行う。
このセットアップは、見るだけでは不十分な現実世界の使い方と間違っています。
MLLMは不完全な情報の下で行方不明の証拠を積極的に取得できるのか?
このギャップを埋めるために、MLLMはタスク固有の事前情報なしで候補プールから目標画像を選択することにより、欠落した証拠を積極的に取得し、不完全な情報の下で決定を反復的に洗練する必要がある。
体系的な研究を支援するため,MLLMにおける能動的推論評価のための知覚指向画像と知識指向画像のベンチマークであるGuessBenchを提案する。
我々は,20個の優れたMLLMを評価し,それより遥かに遅れた能動的推論における性能を受動的に評価し,改善の余地があることを示唆した。
さらなる分析は、微粒な認識とタイムリーな意思決定を重要な課題として挙げる。
アブレーション研究は、知覚的拡張がより小さなモデルに利益をもたらすのに対して、思考指向の手法はモデルサイズ全体で一貫した利得をもたらすことを示している。
これらの結果は,今後の多モーダル能動推論研究の方向性を示唆している。
関連論文リスト
- Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。
AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。
AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文 参考訳(メタデータ) (2025-06-09T23:56:41Z) - Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task [22.16139464288789]
現在のマルチモーダル大言語モデル(MLLM)は、一般的な視覚的推論では優れているが、抽象的視覚的推論(AVR)では未探索のままである。
既存のベンチマークでは、単一ステップの推論に重点を置いて、最終的な結果を強調しながら、推論プロセスの多段階的な性質を無視している。
我々は、様々なレベルの複雑さの推論を評価するために設計されたマルチステージベンチマークであるMultiStARを紹介する。
論文 参考訳(メタデータ) (2025-05-28T00:34:45Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価
我々は、既存のMLLMでは難しい評価を緩和し、定量化する、視覚質問回答(VQA)の専門形式に焦点を当てる。
我々は,制限された知覚野が能動的な知覚を可能にする上で重要な役割を担っていることを観察した。
論文 参考訳(メタデータ) (2024-10-07T00:16:26Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文 参考訳(メタデータ) (2024-02-27T07:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。