論文の概要: Unlocking Generalization for Robotics via Modularity and Scale
- arxiv url: http://arxiv.org/abs/2503.06814v1
- Date: Mon, 10 Mar 2025 00:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:03.501525
- Title: Unlocking Generalization for Robotics via Modularity and Scale
- Title(参考訳): モジュール性とスケールによるロボットのアンロック一般化
- Authors: Murtaza Dalal,
- Abstract要約: 本論文は,汎用ロボット制御のための大規模学習とモジュール性を統合することで,汎用ロボットエージェント構築の課題に取り組むことを目的とする。
私たちの重要な洞察は、エージェントに階層構造と低レベルの制御を学習させるのではなく、計画を通じてモジュール化を強制できるということです。
スケールするには、膨大な量の多様なデータ、データに適合する表現力のあるアーキテクチャ、データを生成するための監視源が必要です。
- 参考スコア(独自算出の注目度): 7.650888732318727
- License:
- Abstract: How can we build generalist robot systems? Scale may not be enough due to the significant multimodality of robotics tasks, lack of easily accessible data and the challenges of deploying on physical hardware. Meanwhile, most deployed robotic systems today are inherently modular and can leverage the independent generalization capabilities of each module to perform well. Therefore, this thesis seeks to tackle the task of building generalist robot agents by integrating these components into one: combining modularity with large-scale learning for general purpose robot control. The first question we consider is: how can we build modularity and hierarchy into learning systems? Our key insight is that rather than having the agent learn hierarchy and low-level control end-to-end, we can enforce modularity via planning to enable more efficient and capable robot learners. Next, we come to the role of scale in building generalist robot systems. To scale, neural networks require vast amounts of diverse data, expressive architectures to fit the data and a source of supervision to generate the data. We leverage a powerful supervision source: classical planning, which can generalize, but is expensive to run and requires access to privileged information to perform well in practice. We use these planners to supervise large-scale policy learning in simulation to produce generalist agents. Finally, we consider how to unify modularity with large-scale policy learning to build real-world robot systems capable of performing zero-shot manipulation. We do so by tightly integrating key ingredients of modular high and mid-level planning, learned local control, procedural scene generation and large-scale policy learning for sim2real transfer. We demonstrate that this recipe can produce a single, generalist agent that can solve challenging long-horizon manipulation tasks in the real world.
- Abstract(参考訳): 汎用ロボットシステムの構築方法
ロボットタスクの多要素性、容易にアクセス可能なデータがないこと、物理的なハードウェアにデプロイすることの難しさにより、スケールは十分ではないかもしれない。
一方、現在展開されているほとんどのロボットシステムは本質的にモジュラーであり、各モジュールの独立的な一般化能力をうまく活用することができる。
そこで本論文では,汎用ロボット制御のためのモジュール性と大規模学習を組み合わせることで,汎用ロボットエージェント構築の課題に取り組む。
最初の疑問は,学習システムにモジュール性と階層を構築するにはどうすればよいのか,という点です。
我々の重要な洞察は、エージェントが階層構造と低レベルの制御をエンド・ツー・エンドに学習させるのではなく、より効率的で有能なロボット学習者を実現するために計画を通じてモジュラリティを強制できるということです。
次に,汎用ロボットシステムの構築におけるスケールの役割について述べる。
スケールするには、膨大な量の多様なデータ、データに適合する表現力のあるアーキテクチャ、データを生成するための監視源が必要です。
一般化できるが、実行にはコストがかかり、実際にうまく機能するためには特権情報へのアクセスが必要である。
我々はこれらのプランナーを用いて、シミュレーションにおける大規模な政策学習を監督し、ジェネラリストエージェントを作成する。
最後に、モジュラリティと大規模なポリシー学習を一体化して、ゼロショット操作が可能な現実世界のロボットシステムを構築する方法について検討する。
我々は,モジュール型高層・中層計画の重要な要素を密に統合し,局所的な制御,手続き的なシーン生成,シム2リアルトランスファーのための大規模ポリシー学習を学習する。
このレシピは、現実世界における長期操作の課題を解決できる1つの汎用エージェントを創出できることを実証する。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - MeMo: Meaningful, Modular Controllers via Noise Injection [25.541496793132183]
新たなロボットが同じパーツから構築された場合,モジュール型コントローラを再利用することで,その制御を迅速に学習できることが示される。
私たちはMeMoと呼ばれるフレームワークでこれを実現し、Meは(Me)有界で(Mo)有界なコントローラーを学習します。
我々は,ロボット形態変化の簡易化を目標として,移動環境と把握環境の枠組みをベンチマークした。
論文 参考訳(メタデータ) (2024-05-24T18:39:20Z) - Octo: An Open-Source Generalist Robot Policy [88.14295917143188]
ここでは,Open X-Embodimentデータセットから800kトラジェクトリをトレーニングした,大規模なトランスフォーマーベースのポリシであるOctoを紹介する。
標準のGPUでは数時間以内に、新しいセンサー入力とアクションスペースを備えたロボットセットアップに効果的にカスタマイズできる。
また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。
論文 参考訳(メタデータ) (2024-05-20T17:57:01Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - MetaMorph: Learning Universal Controllers with Transformers [45.478223199658785]
ロボット工学では、主に1つのタスクのために1つのロボットを訓練します。
モジュラーロボットシステムは、汎用的なビルディングブロックをタスク最適化形態に柔軟な組み合わせを可能にする。
モジュール型ロボット設計空間上でユニバーサルコントローラを学習するためのトランスフォーマーベースのアプローチであるMetaMorphを提案する。
論文 参考訳(メタデータ) (2022-03-22T17:58:31Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。