論文の概要: How Foundational Skills Influence VLM-based Embodied Agents:A Native Perspective
- arxiv url: http://arxiv.org/abs/2602.20687v1
- Date: Tue, 24 Feb 2026 08:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.680279
- Title: How Foundational Skills Influence VLM-based Embodied Agents:A Native Perspective
- Title(参考訳): 基礎的スキルがVLMベースの身体的エージェントに与える影響:ネイティブ視点
- Authors: Bo Peng, Pi Bu, Keyu Pan, Xinrun Xu, Yinxiu Zhao, Miao Chen, Yang Du, Lin Li, Jun Song, Tong Xu,
- Abstract要約: VLM駆動型エンボディエージェントのベンチマークであるNativeEmbodiedを提案する。
多様なシミュレートされたシーンに基づいて構築されたNativeEmbodiedには、全体的なパフォーマンスを評価するための複雑なシナリオにおける3つの代表的なハイレベルタスクが含まれている。
より詳細な分析を行うため、4種類の低レベルタスクを構築し、それぞれが基本的な具体的スキルをターゲットにしている。
- 参考スコア(独自算出の注目度): 18.773467537970753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) have shown promise for human-level embodied intelligence. However, existing benchmarks for VLM-driven embodied agents often rely on high-level commands or discretized action spaces, which are non-native settings that differ markedly from real-world control. In addition, current benchmarks focus primarily on high-level tasks and lack joint evaluation and analysis at both low and high levels. To address these limitations, we present NativeEmbodied, a challenging benchmark for VLM-driven embodied agents that uses a unified, native low-level action space. Built on diverse simulated scenes, NativeEmbodied includes three representative high-level tasks in complex scenarios to evaluate overall performance. For more detailed analysis, we further decouple the skills required by complex tasks and construct four types of low-level tasks, each targeting a fundamental embodied skill. This joint evaluation across task and skill granularities enables fine-grained assessment of embodied agents. Experiments with state-of-the-art VLMs reveal clear deficiencies in several fundamental embodied skills, and further analysis shows that these bottlenecks significantly limit performance on high-level tasks. NativeEmbodied highlights key challenges for current VLM-driven embodied agents and provides insights to guide future research.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、人間レベルのインボディードインテリジェンスを約束している。
しかしながら、VLM駆動のエンボディエージェントの既存のベンチマークは、現実世界の制御と大きく異なる非ネイティブな設定である、高レベルなコマンドや離散化されたアクション空間に依存していることが多い。
さらに、現在のベンチマークは、主にハイレベルなタスクに焦点を当てており、ローレベルとハイレベルの両方で共同評価と分析が欠如している。
これらの制限に対処するため、我々は、ネイティブな低レベルアクション空間を統一的に使用するVLM駆動型エンボディエージェントの挑戦的なベンチマークであるNativeEmbodiedを提案する。
多様なシミュレートされたシーンに基づいて構築されたNativeEmbodiedには、全体的なパフォーマンスを評価するための複雑なシナリオにおける3つの代表的なハイレベルタスクが含まれている。
より詳細な分析を行うには、複雑なタスクに必要なスキルをさらに分離し、4種類の低レベルタスクを構築し、それぞれが基本的な具体的スキルをターゲットにする。
このタスクとスキルの粒度をまたいだ共同評価は、エンボディエージェントのきめ細かい評価を可能にする。
最先端のVLMを用いた実験では、いくつかの基本的な具体的スキルの欠陥が明らかであり、さらに分析により、これらのボトルネックがハイレベルなタスクのパフォーマンスを著しく制限していることが示されている。
NativeEmbodiedは、現在のVLM駆動型エンボディエージェントの重要な課題を強調し、将来の研究をガイドするための洞察を提供する。
関連論文リスト
- LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。