論文の概要: Polybot: Training One Policy Across Robots While Embracing Variability
- arxiv url: http://arxiv.org/abs/2307.03719v1
- Date: Fri, 7 Jul 2023 17:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 11:40:37.598967
- Title: Polybot: Training One Policy Across Robots While Embracing Variability
- Title(参考訳): Polybot: 可変性を受け入れながら、ロボット間の1つのポリシーを訓練する
- Authors: Jonathan Yang, Dorsa Sadigh, Chelsea Finn
- Abstract要約: 複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
- 参考スコア(独自算出の注目度): 70.74462430582163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reusing large datasets is crucial to scale vision-based robotic manipulators
to everyday scenarios due to the high cost of collecting robotic datasets.
However, robotic platforms possess varying control schemes, camera viewpoints,
kinematic configurations, and end-effector morphologies, posing significant
challenges when transferring manipulation skills from one platform to another.
To tackle this problem, we propose a set of key design decisions to train a
single policy for deployment on multiple robotic platforms. Our framework first
aligns the observation and action spaces of our policy across embodiments via
utilizing wrist cameras and a unified, but modular codebase. To bridge the
remaining domain shift, we align our policy's internal representations across
embodiments through contrastive learning. We evaluate our method on a dataset
collected over 60 hours spanning 6 tasks and 3 robots with varying joint
configurations and sizes: the WidowX 250S, the Franka Emika Panda, and the
Sawyer. Our results demonstrate significant improvements in success rate and
sample efficiency for our policy when using new task data collected on a
different robot, validating our proposed design decisions. More details and
videos can be found on our anonymized project website:
https://sites.google.com/view/polybot-multirobot
- Abstract(参考訳): 大規模なデータセットの再利用は、ロボットデータセットの収集コストが高いため、ビジョンベースのロボットマニピュレータを日々のシナリオにスケールするために不可欠である。
しかし、ロボットプラットフォームは、様々な制御スキーム、カメラ視点、運動的構成、およびエンドエフェクタ形態を有しており、操作スキルをプラットフォームから他のプラットフォームに移す際に重大な課題となっている。
この問題に対処するために、複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
我々のフレームワークは、まず、手首カメラと統一されたモジュール化されたコードベースを利用することで、私たちのポリシーの観察空間と行動空間を実施できる。
残りのドメインシフトを橋渡しするため、我々は対照学習を通じて、ポリシーの内部表現を具体化します。
提案手法は,WidowX 250S,Franka Emika Panda,Sawyerの6つのタスクと3つのロボットからなる60時間以上のデータセットを用いて評価した。
その結果、異なるロボットで収集したタスクデータを用いて、提案した設計決定を検証した場合、成功率とサンプル効率が大幅に向上した。
詳細とビデオは、匿名のプロジェクトwebサイト: https://sites.google.com/view/polybot-multirobot.com
関連論文リスト
- Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - Octo: An Open-Source Generalist Robot Policy [88.14295917143188]
ここでは,Open X-Embodimentデータセットから800kトラジェクトリをトレーニングした,大規模なトランスフォーマーベースのポリシであるOctoを紹介する。
標準のGPUでは数時間以内に、新しいセンサー入力とアクションスペースを備えたロボットセットアップに効果的にカスタマイズできる。
また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。
論文 参考訳(メタデータ) (2024-05-20T17:57:01Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - ExAug: Robot-Conditioned Navigation Policies via Geometric Experience
Augmentation [73.63212031963843]
本研究では,多様な環境における複数のデータセットから異なるロボットプラットフォームを体験するための新しいフレームワークであるExAugを提案する。
トレーニングされたポリシーは、屋内と屋外の障害物のある3つの異なるカメラを備えた2つの新しいロボットプラットフォームで評価される。
論文 参考訳(メタデータ) (2022-10-14T01:32:15Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。