論文の概要: PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
- arxiv url: http://arxiv.org/abs/2510.21111v1
- Date: Fri, 24 Oct 2025 02:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.366503
- Title: PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
- Title(参考訳): PhysVLM-AVR:物理環境における多モード大言語モデルのためのアクティブビジュアル推論
- Authors: Weijie Zhou, Xuantang Xiong, Yi Peng, Manli Tao, Chaoyang Zhao, Honghui Dong, Ming Tang, Jinqiao Wang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
- 参考スコア(独自算出の注目度): 36.84821207878773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning in multimodal large language models (MLLMs) has primarily been studied in static, fully observable settings, limiting their effectiveness in real-world environments where information is often incomplete due to occlusion or limited field of view. Humans, in contrast, actively explore and interact with their environment-moving, examining, and manipulating objects-to gather information through a closed-loop process integrating perception, reasoning, and action. Inspired by this human capability, we introduce the Active Visual Reasoning (AVR) task, extending visual reasoning to partially observable, interactive environments. AVR necessitates agents to: (1) actively acquire information via sequential physical actions, (2) integrate observations across multiple steps for coherent reasoning, and (3) dynamically adjust decisions based on evolving visual feedback. To rigorously evaluate AVR, we introduce CLEVR-AVR, a simulation benchmark featuring multi-round interactive environments designed to assess both reasoning correctness and information-gathering efficiency. We present AVR-152k, a large-scale dataset that offers rich Chain-of-Thought (CoT) annotations detailing iterative reasoning for uncertainty identification, action-conditioned information gain prediction, and information-maximizing action selection, crucial for training agents in a higher-order Markov Decision Process. Building on this, we develop PhysVLM-AVR, an MLLM achieving state-of-the-art performance on CLEVR-AVR, embodied reasoning (OpenEQA, RoboVQA), and passive visual reasoning (GeoMath, Geometry30K). Our analysis also reveals that current embodied MLLMs, despite detecting information incompleteness, struggle to actively acquire and integrate new information through interaction, highlighting a fundamental gap in active reasoning capabilities.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)における視覚的推論は、主に静的かつ完全に観測可能な環境で研究され、閉ざされた視野や限られた視野のためにしばしば情報が不完全である現実世界環境での有効性が制限されている。
対照的に、人間は、知覚、推論、行動を統合するクローズドループプロセスを通じて情報を集めるために、環境を移動させ、調査し、操作するオブジェクトを積極的に探索し、相互作用する。
この人間の能力に触発されて、視覚的推論を部分的に観察可能で対話的な環境に拡張するActive Visual Reasoning (AVR)タスクを導入した。
AVRは,(1)シーケンシャルな物理的行動を通じて情報を積極的に取得し,(2)一貫性のある推論のための複数のステップにわたる観察を統合し,(3)進化する視覚的フィードバックに基づく意思決定を動的に調整する必要がある。
CLEVR-AVR(CLEVR-AVR)は,推論の正確さと情報収集効率の両方を評価するために設計された,複数ラウンドの対話型環境を特徴とするシミュレーションベンチマークである。
提案する大規模データセットAVR-152kは,高次マルコフ決定プロセスにおける訓練エージェントにとって重要な,不確実性識別,行動条件情報獲得予測,情報最大化行動選択の反復的推論を詳細に記述したリッチチェイン・オブ・ソート(CoT)アノテーションを提供する。
そこで我々は,CLEVR-AVRの最先端性能を実現するMLLMであるPhysVLM-AVR,OpenEQA,RoboVQA,受動的視覚推論(GeoMath,Geometry30K)を開発した。
また,情報不完全性を検知した現在のMLLMでは,インタラクションを通じて新たな情報を積極的に取得・統合することが困難であり,アクティブな推論能力の根本的なギャップを浮き彫りにしている。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価
我々は、既存のMLLMでは難しい評価を緩和し、定量化する、視覚質問回答(VQA)の専門形式に焦点を当てる。
我々は,制限された知覚野が能動的な知覚を可能にする上で重要な役割を担っていることを観察した。
論文 参考訳(メタデータ) (2024-10-07T00:16:26Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。