論文の概要: ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
- arxiv url: http://arxiv.org/abs/2508.08240v1
- Date: Mon, 11 Aug 2025 17:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.251675
- Title: ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks
- Title(参考訳): ODYSSEY:長期タスクのためのオープンワールド四足歩行探索と操作
- Authors: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen,
- Abstract要約: ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
- 参考スコア(独自算出の注目度): 46.676862567167625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semantic reasoning, generalizable manipulation, and adaptive locomotion. Three fundamental limitations hinder progress: First, although large language models have improved spatial reasoning and task planning through semantic priors, existing implementations remain confined to tabletop scenarios, failing to address the constrained perception and limited actuation ranges of mobile platforms. Second, current manipulation strategies exhibit insufficient generalization when confronted with the diverse object configurations encountered in open-world environments. Third, while crucial for practical deployment, the dual requirement of maintaining high platform maneuverability alongside precise end-effector control in unstructured settings remains understudied. In this work, we present ODYSSEY, a unified mobile manipulation framework for agile quadruped robots equipped with manipulators, which seamlessly integrates high-level task planning with low-level whole-body control. To address the challenge of egocentric perception in language-conditioned tasks, we introduce a hierarchical planner powered by a vision-language model, enabling long-horizon instruction decomposition and precise action execution. At the control level, our novel whole-body policy achieves robust coordination across challenging terrains. We further present the first benchmark for long-horizon mobile manipulation, evaluating diverse indoor and outdoor scenarios. Through successful sim-to-real transfer, we demonstrate the system's generalization and robustness in real-world deployments, underscoring the practicality of legged manipulators in unstructured environments. Our work advances the feasibility of generalized robotic assistants capable of complex, dynamic tasks. Our project page: https://kaijwang.github.io/odyssey.github.io/
- Abstract(参考訳): 言語誘導型長距離移動操作は、意味論的推論、一般化可能な操作、適応的な移動において長年大きな課題であった。
第一に、大きな言語モデルは、セマンティックプリエンスを通じて空間推論とタスク計画を改善してきたが、既存の実装はテーブルトップシナリオに限られており、モバイルプラットフォームの制限された認識と限られたアクティベーション範囲に対処できなかった。
第2に、現在の操作戦略は、オープンワールド環境で遭遇する多様なオブジェクト構成に直面すると、不十分な一般化を示す。
第3に、実際の配備には不可欠であるが、非構造化環境での正確なエンドエフェクタ制御と高プラットフォーム操作性を維持するという2つの要件が検討されている。
本研究では,マニピュレータを備えたアジャイル四足ロボットのための統合移動操作フレームワークODYSSEYについて述べる。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
さらに,室内および屋外の多様なシナリオを評価する,長距離移動操作のための最初のベンチマークを提示する。
実世界展開におけるシステム一般化とロバスト性を実証し,非構造環境における脚型マニピュレータの実用性を実証した。
我々の研究は、複雑でダイナミックなタスクが可能な一般化されたロボットアシスタントの実現性を向上させる。
プロジェクトページ:https://kaijwang.github.io/odyssey.github.io/
関連論文リスト
- Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback [12.600525101342026]
本稿では,言語条件のロングホライズンロボット操作のためのデータに依存しないフレームワークであるDAHLIAを紹介する。
LLMは、リアルタイムタスク計画と実行のための大きな言語モデルである。
本フレームワークは,多種多様な長期タスクにおける最先端性能を実証し,シミュレーションおよび実世界のシナリオにおいて強力な一般化を実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - N$^2$M$^2$: Learning Navigation for Arbitrary Mobile Manipulation
Motions in Unseen and Dynamic Environments [9.079709086741987]
モバイル操作のためのニューラルナビゲーション(N$2$M$2$)を導入する。
結果として生じるアプローチは、動的障害物や環境変化に即座に反応しながら、探索されていない環境で、目に見えない、長い水平タスクを実行することができる。
提案手法は,複数の運動学的に多様な移動マニピュレータ上での広範囲なシミュレーションおよび実世界の実験において有効であることを示す。
論文 参考訳(メタデータ) (2022-06-17T12:52:41Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。