論文の概要: PoCo: Policy Composition from and for Heterogeneous Robot Learning
- arxiv url: http://arxiv.org/abs/2402.02511v2
- Date: Mon, 27 May 2024 14:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 07:44:38.372350
- Title: PoCo: Policy Composition from and for Heterogeneous Robot Learning
- Title(参考訳): PoCo:不均質なロボット学習の政策構成
- Authors: Lirui Wang, Jialiang Zhao, Yilun Du, Edward H. Adelson, Russ Tedrake,
- Abstract要約: 現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
- 参考スコア(独自算出の注目度): 44.1315170137613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training general robotic policies from heterogeneous data for different tasks is a significant challenge. Existing robotic datasets vary in different modalities such as color, depth, tactile, and proprioceptive information, and collected in different domains such as simulation, real robots, and human videos. Current methods usually collect and pool all data from one domain to train a single policy to handle such heterogeneity in tasks and domains, which is prohibitively expensive and difficult. In this work, we present a flexible approach, dubbed Policy Composition, to combine information across such diverse modalities and domains for learning scene-level and task-level generalized manipulation skills, by composing different data distributions represented with diffusion models. Our method can use task-level composition for multi-task manipulation and be composed with analytic cost functions to adapt policy behaviors at inference time. We train our method on simulation, human, and real robot data and evaluate in tool-use tasks. The composed policy achieves robust and dexterous performance under varying scenes and tasks and outperforms baselines from a single data source in both simulation and real-world experiments. See https://liruiw.github.io/policycomp for more details .
- Abstract(参考訳): さまざまなタスクのための異種データから一般的なロボットポリシーをトレーニングすることは、大きな課題である。
既存のロボットデータセットは、色、深さ、触覚、固有受容情報など様々な形態で異なり、シミュレーション、実際のロボット、人間のビデオといった様々な領域で収集される。
現在のメソッドは通常、ひとつのドメインからすべてのデータを収集してプールし、単一のポリシーをトレーニングして、タスクやドメインの不均一性を処理する。
本研究では,多種多様なモダリティや領域にまたがる情報を組み合わせて,様々なデータ分布を拡散モデルで表現し,シーンレベルとタスクレベルを一般化した操作スキルを学習するフレキシブルな手法を提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用でき、分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
我々は、シミュレーション、人間、および実際のロボットデータに基づいて手法を訓練し、ツール使用タスクの評価を行う。
構成されたポリシは、さまざまなシーンやタスクの下で堅牢で厳密なパフォーマンスを実現し、シミュレーションと実世界の両方の実験において、単一のデータソースからベースラインを上回ります。
詳細はhttps://liruiw.github.io/policycompを参照してください。
関連論文リスト
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance [66.51390591688802]
バリューガイド型ポリシーステアリング(V-GPS)は、ポリシーの重みを微調整したり、アクセスしたりすることなく、幅広い種類のジェネラリストポリシーと互換性がある。
同じ値関数は、異なるアーキテクチャで5つの最先端ポリシーの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:46:26Z) - Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Efficient Self-Supervised Data Collection for Offline Robot Learning [17.461103383630853]
ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。
我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
論文 参考訳(メタデータ) (2021-05-10T18:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。