論文の概要: RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World
- arxiv url: http://arxiv.org/abs/2412.00171v3
- Date: Tue, 25 Mar 2025 09:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:13:26.446830
- Title: RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World
- Title(参考訳): RoboMatrix: オープンワールドにおけるスケーラブルなロボットタスク計画と実行のためのスキル中心の階層型フレームワーク
- Authors: Weixin Mao, Weiheng Zhong, Zhou Jiang, Dong Fang, Zhongyue Zhang, Zihan Lan, Haosheng Li, Fan Jia, Tiancai Wang, Haoqiang Fan, Osamu Yoshie,
- Abstract要約: RoboMatrixは、オープンソースの環境でのスケーラブルなロボットタスク計画と実行のために設計された、スキル中心の階層型フレームワークである。
我々の研究の鍵となる革新は、1つのモデルに運動と操作の両方をシームレスに統合できる最初の統合視覚言語アクション(VLA)モデルの導入である。
- 参考スコア(独自算出の注目度): 18.44952696124717
- License:
- Abstract: Existing robot policies predominantly adopt the task-centric approach, requiring end-to-end task data collection. This results in limited generalization to new tasks and difficulties in pinpointing errors within long-horizon, multi-stage tasks. To address this, we propose RoboMatrix, a skill-centric hierarchical framework designed for scalable robot task planning and execution in open-world environments. RoboMatrix extracts general meta-skills from diverse complex tasks, enabling the completion of unseen tasks through skill composition. Its architecture consists of a high-level scheduling layer that utilizes large language models (LLMs) for task decomposition, an intermediate skill layer housing meta-skill models, and a low-level hardware layer for robot control. A key innovation of our work is the introduction of the first unified vision-language-action (VLA) model capable of seamlessly integrating both movement and manipulation within one model. This is achieved by combining vision and language prompts to generate discrete actions. Experimental results demonstrate that RoboMatrix achieves a 50% higher success rate than task-centric baselines when applied to unseen objects, scenes, and tasks. To advance open-world robotics research, we will open-source code, hardware designs, model weights, and datasets at https://github.com/WayneMao/RoboMatrix.
- Abstract(参考訳): 既存のロボットポリシーは、主にタスク中心のアプローチを採用し、エンドツーエンドのタスクデータ収集を必要とする。
これにより、新しいタスクへの限定的な一般化と、長期の多段階タスクにおけるエラーの特定が困難になる。
そこで我々は,オープンワールド環境におけるスケーラブルなロボットタスク計画と実行を目的とした,スキル中心の階層型フレームワークであるRoboMatrixを提案する。
RoboMatrixは、様々な複雑なタスクから一般的なメタスキルを抽出し、スキルコンポジションを通じて目に見えないタスクを完了させる。
そのアーキテクチャは、タスク分解に大規模言語モデル(LLM)を利用する高レベルスケジューリング層、メタスキルモデルを収容する中間スキル層、ロボット制御のための低レベルハードウェア層で構成されている。
我々の研究の重要な革新は、1つのモデルに運動と操作の両方をシームレスに統合できる最初の統合視覚言語アクション(VLA)モデルの導入である。
これは、視覚と言語プロンプトを組み合わせて個別のアクションを生成することで実現される。
実験の結果,RoboMatrixは未確認のオブジェクトやシーン,タスクに適用した場合,タスク中心のベースラインよりも50%高い成功率を達成した。
オープンワールドロボティクスの研究を進めるため、私たちはhttps://github.com/WayneMao/RoboMatrix.comで、コード、ハードウェアデザイン、モデルウェイト、データセットをオープンソース化します。
関連論文リスト
- Hierarchical Meta-Reinforcement Learning via Automated Macro-Action Discovery [4.0847743592744905]
複雑なタスクや高次元タスクにまたがってパフォーマンスポリシーを学ぶことは依然として困難である。
本稿では,1)タスク表現の学習,2)タスクに依存しないマクロアクションの自動発見,3)プリミティブアクションの学習という3つの階層レベルの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:15:36Z) - COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Interactive Task Planning with Language Models [89.5839216871244]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、しばしば、重いプロンプトエンジニアリングまたはドメイン固有の事前訓練されたモデルを必要とする。
言語モデルを用いた対話型タスクプランニングを実現するための,高レベルプランニングと低レベルスキル実行を併用したシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z) - Towards an Interpretable Hierarchical Agent Framework using Semantic
Goals [6.677083312952721]
本研究は、計画と意味的目標を指向した強化学習を組み合わせることで、解釈可能な階層型エージェントフレームワークを導入する。
我々は,ロボットブロック操作タスクの枠組みを評価し,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-16T02:04:13Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Graph-based Reinforcement Learning meets Mixed Integer Programs: An
application to 3D robot assembly discovery [34.25379651790627]
我々は、テトリスのような構造ブロックとロボットマニピュレータを用いて、スクラッチから完全に定義済みの任意のターゲット構造を構築するという課題に対処する。
我々の新しい階層的アプローチは、タスク全体を相互に利益をもたらす3つの実行可能なレベルに効率的に分解することを目的としています。
論文 参考訳(メタデータ) (2022-03-08T14:44:51Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。