論文の概要: OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
- arxiv url: http://arxiv.org/abs/2509.09332v2
- Date: Fri, 12 Sep 2025 08:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 12:05:48.661601
- Title: OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
- Title(参考訳): OmniEVA:タスク適応型3Dグラウンドとエンボディメントを意識した推論によるボディード・バーサティル・プランナー
- Authors: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan,
- Abstract要約: 我々は,先進的な具体的推論とタスクプランニングを可能にする,多元的多元的プランナーであるOmniEVAを紹介する。
Task-Adaptive 3D Groundingメカニズムは、様々な実施タスクに対してコンテキスト対応の3Dグラウンドを可能にする。
Embodiment-Aware Reasoningフレームワークは、タスクの目標と実施制約を推論ループに組み込む。
- 参考スコア(独自算出の注目度): 50.45036742963495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalization, leading to poor adaptability across tasks with diverse spatial demands. Second, Embodiment Constraint Gap: prior work often neglects the physical constraints and capacities of real robots, resulting in task plans that are theoretically valid but practically infeasible. To address these gaps, we introduce OmniEVA -- an embodied versatile planner that enables advanced embodied reasoning and task planning through two pivotal innovations: (1) a Task-Adaptive 3D Grounding mechanism, which introduces a gated router to perform explicit selective regulation of 3D fusion based on contextual requirements, enabling context-aware 3D grounding for diverse embodied tasks. (2) an Embodiment-Aware Reasoning framework that jointly incorporates task goals and embodiment constraints into the reasoning loop, resulting in planning decisions that are both goal-directed and executable. Extensive experimental results demonstrate that OmniEVA not only achieves state-of-the-art general embodied reasoning performance, but also exhibits a strong ability across a wide range of downstream scenarios. Evaluations of a suite of proposed embodied benchmarks, including both primitive and composite tasks, confirm its robust and versatile planning capabilities. Project page: https://omnieva.github.io
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多モーダル理解、推論、相互作用、そして連続的な空間的意思決定を可能にする、インテリジェンスを具現化するための新たな機会を開いた。
しかしながら、現在のMLLMベースのエンボディシステムには2つの限界がある。
幾何学的適応性ギャップ(Geometric Adaptability Gap): 2次元入力のみに訓練されたモデルや、ハードコードされた3次元幾何学的注入は、空間情報の不足や2次元一般化の制限に悩まされ、様々な空間的要求のあるタスクに対する適応性が低下する。
第二に、エンボディメント制約ギャップ(Embodiment Constraint Gap): 先行研究は、しばしば実際のロボットの物理的制約と能力を無視し、理論的には有効だが事実上不可能なタスク計画をもたらす。
これらのギャップに対処するために,我々はOmniEVAを導入する。OmniEVAは,(1)タスク適応型3Dグラウンド機構を導入し,コンテキスト要求に基づいて3Dフュージョンを明示的に選択的に制御し,コンテキスト認識型3Dグラウンド化を可能にする。
2) タスク目標と実施制約を共同で推論ループに組み込んだ Embodiment-Aware Reasoning フレームワーク。
OmniEVAは、最先端の一般的な推論性能を達成するだけでなく、幅広いダウンストリームシナリオで強力な能力を発揮することを示した。
プリミティブタスクと複合タスクの両方を含む、提案された実施ベンチマークスイートの評価は、その堅牢で汎用的な計画能力を確認する。
プロジェクトページ: https://omnieva.github.io
関連論文リスト
- OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision [31.929268076595122]
OccVLAは、3D占有率表現を統一されたマルチモーダル推論プロセスに統合する新しいフレームワークである。
OccVLAは、軌跡計画のためのnuScenesベンチマークの最先端結果を達成し、3次元視覚的質問応答タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-06T03:47:21Z) - MPCC: A Novel Benchmark for Multimodal Planning with Complex Constraints in Multimodal Large Language Models [42.30936364450115]
マルチモーダル計画能力は、マルチモーダルコンテキストによるタスク実行の予測、推論、設計のステップを指す。
現在のベンチマークでは,(1)マルチモーダルな実世界の計画能力を直接評価できないこと,(2)モダリティ間の制約や暗黙の制約が欠けていること,の2つの課題に直面している。
本稿では,MLLMのマルチモーダル制約処理能力を体系的に評価する最初のベンチマークであるMPCC(Multimodal Planning with Complex Constraints)を紹介する。
論文 参考訳(メタデータ) (2025-07-31T09:59:17Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - Grounded Vision-Language Interpreter for Integrated Task and Motion Planning [9.672301008147826]
ViLaIn-TAMPは、検証可能、解釈可能、自律的なロボット動作を可能にするためのハイブリッドな計画フレームワークである。
ViLaIn-TAMPは、(1) ViLaIn (Vision-Language Interpreter) - 追加のドメイン固有の訓練なしに、既製のVLMを使用して、マルチモーダル入力を構造化された問題仕様に変換する以前のフレームワーク、(2) モジュール化されたタスク・アンド・モーション・プランニング(TAMP)システム、(2) シンボル的および幾何学的制約推論を通じて、これらの仕様を実行可能なトラジェクティブ・シーケンスに基礎を置く、(3) 動作およびタスク計画コンポーネントからの失敗ソリューションの具体的なフィードバックを受け、適応されたロジックを供給できる修正計画モジュールである。
論文 参考訳(メタデータ) (2025-06-03T18:00:32Z) - General-Purpose Aerial Intelligent Agents Empowered by Large Language Models [9.603293922137965]
本稿では,オープンワールドタスク実行が可能な,初の航空知的エージェントを提案する。
私たちのハードウェアとソフトウェアの共同設計システムは、2つの基本的な制限に対処します。
本システムは,コミュニケーション制約のある環境におけるタスク計画とシーン理解の信頼性を示す。
論文 参考訳(メタデータ) (2025-03-11T11:13:58Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。