論文の概要: Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
- arxiv url: http://arxiv.org/abs/2511.18685v1
- Date: Mon, 24 Nov 2025 02:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.972538
- Title: Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
- Title(参考訳): 説明以上の: 身体的エージェントに対する微粒化作用を認知的にベンチマークする
- Authors: Dayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu,
- Abstract要約: CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 52.14392337070763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show promising results as decision-making engines for embodied agents operating in complex, physical environments. However, existing benchmarks often prioritize high-level planning or spatial reasoning, leaving the fine-grained action intelligence required for embodied physical interaction underexplored. To address this gap, we introduce CFG-Bench, a new benchmark designed to systematically evaluate this crucial capability. CFG-Bench consists of 1,368 curated videos paired with 19,562 three-modalities question-answer pairs targeting four cognitive abilities: 1) Physical Interaction, 2) Temporal-Causal Relation, 3) Intentional Understanding, and 4) Evaluative Judgment. Together, these dimensions provide a systematic framework for assessing a model's ability to translate visual observations into actionable knowledge, moving beyond mere surface-level recognition. Our comprehensive evaluation on CFG-Bench reveals that leading MLLMs struggle to produce detailed instructions for physical interactions and exhibit profound limitations in the higher-order reasoning of intention and evaluation. Moreover, supervised fine-tuning (SFT) on our data demonstrates that teaching an MLLMs to articulate fine-grained actions directly translates to significant performance gains on established embodied benchmarks. Our analysis highlights these limitations and offers insights for developing more capable and grounded embodied agents.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑な物理環境で動作するエンボディエージェントの意思決定エンジンとして有望な結果を示す。
しかし、既存のベンチマークは高レベルな計画や空間的推論を優先し、物理相互作用を具体化するために必要なきめ細かいアクションインテリジェンスを過小評価している。
このギャップに対処するために、我々はCFG-Benchという、この重要な能力を体系的に評価する新しいベンチマークを導入する。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
1) 物理的相互作用
2)時間・因果関係
3)意図的理解,及び
4) 評価判断。
これらの次元は、視覚的な観察を行動可能な知識に翻訳するモデルの能力を評価するための体系的な枠組みを提供する。
CFG-Benchの総合的な評価から,MLLMの先導者は,物理的相互作用の詳細な指示を導き出すのに苦慮し,意図と評価の高次推論において重大な制約を呈することが明らかとなった。
さらに、データ上での教師付き微調整(SFT)は、MLLMにきめ細かな動作を指示することが、確立した具体化ベンチマークにおいて直接的に大きなパフォーマンス向上をもたらすことを示す。
我々の分析はこれらの制限を強調し、より有能で接地的なエンボディエージェントを開発するための洞察を提供する。
関連論文リスト
- MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity [28.797461492275488]
MME-CCは、11の代表的な推論タスクを3つの基本的な視覚情報カテゴリにまとめるビジョングラウンドのベンチマークである。
MME-CCに基づいて16種類のMLLMに対して広範囲な実験を行った。
我々は、方向の誤り、脆弱なクロスビュー・アイデンティティの永続性、および非現実的命令への従順性の欠如など、一般的なエラーパターンを識別する。
論文 参考訳(メタデータ) (2025-11-05T03:09:16Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Reflection-Bench: Evaluating Epistemic Agency in Large Language Models [10.801745760525838]
疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。
リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。
本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-10-21T17:59:50Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。