論文の概要: VisualActBench: Can VLMs See and Act like a Human?
- arxiv url: http://arxiv.org/abs/2512.09907v1
- Date: Wed, 10 Dec 2025 18:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.638872
- Title: VisualActBench: Can VLMs See and Act like a Human?
- Title(参考訳): VisualActBench: VLMは人間らしく見えるか?
- Authors: Daoan Zhang, Pai Liu, Xiaofei Zhou, Yuan Ge, Guangchen Lan, Jing Bi, Christopher Brinton, Ehsan Hoque, Jiebo Luo,
- Abstract要約: VLM(Vision-Language Models)は、視覚環境の知覚と記述において顕著な進歩を遂げた。
しかし、明示的なテキストのプロンプトなしで、視覚的な入力のみに基づいて、積極的に推論し、行動する能力は、いまだに未解明のままである。
新しいタスクであるVisual Action Reasoningを導入し、1,074の動画と3,733の人手によるアクションからなる大規模ベンチマークであるVisualActBenchを提案する。
- 参考スコア(独自算出の注目度): 47.16421650715271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved impressive progress in perceiving and describing visual environments. However, their ability to proactively reason and act based solely on visual inputs, without explicit textual prompts, remains underexplored. We introduce a new task, Visual Action Reasoning, and propose VisualActBench, a large-scale benchmark comprising 1,074 videos and 3,733 human-annotated actions across four real-world scenarios. Each action is labeled with an Action Prioritization Level (APL) and a proactive-reactive type to assess models' human-aligned reasoning and value sensitivity. We evaluate 29 VLMs on VisualActBench and find that while frontier models like GPT4o demonstrate relatively strong performance, a significant gap remains compared to human-level reasoning, particularly in generating proactive, high-priority actions. Our results highlight limitations in current VLMs' ability to interpret complex context, anticipate outcomes, and align with human decision-making frameworks. VisualActBench establishes a comprehensive foundation for assessing and improving the real-world readiness of proactive, vision-centric AI agents.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚環境の知覚と記述において顕著な進歩を遂げた。
しかし、明示的なテキストのプロンプトなしで、視覚的な入力のみに基づいて、積極的に推論し、行動する能力は、いまだに未解明のままである。
新しいタスクであるVisual Action Reasoningを導入し、実世界の4つのシナリオにまたがる1,074の動画と3,733の人為的なアクションからなる大規模なベンチマークであるVisualActBenchを提案する。
各アクションには、APL(Action Prioritization Level)と、モデルのヒューマンアラインな推論と値の感度を評価するためのアクティブな型がラベル付けされている。
我々は、VisualActBench上で29のVLMを評価し、GPT4oのようなフロンティアモデルが比較的高い性能を示す一方で、特にプロアクティブで高優先度なアクションの生成において、人間レベルの推論と比較して大きなギャップが残っていることを発見した。
我々の結果は、複雑な文脈を解釈し、成果を予測し、人間の意思決定フレームワークと整合する現在のVLMの能力の限界を強調している。
VisualActBenchは、プロアクティブでビジョン中心のAIエージェントの現実的準備性を評価し改善するための総合的な基盤を確立している。
関連論文リスト
- PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Imagine, Verify, Execute: Memory-guided Agentic Exploration with Vision-Language Models [81.08295968057453]
本稿では,人間の好奇心に触発されたエージェント探索フレームワークIVEを紹介する。
シミュレーションおよび実世界のテーブルトップ環境におけるIVEの評価を行った。
論文 参考訳(メタデータ) (2025-05-12T17:59:11Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価
我々は、既存のMLLMでは難しい評価を緩和し、定量化する、視覚質問回答(VQA)の専門形式に焦点を当てる。
我々は,制限された知覚野が能動的な知覚を可能にする上で重要な役割を担っていることを観察した。
論文 参考訳(メタデータ) (2024-10-07T00:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。