論文の概要: CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation
Learning
- arxiv url: http://arxiv.org/abs/2212.05711v1
- Date: Mon, 12 Dec 2022 05:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:43:41.975591
- Title: CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation
Learning
- Title(参考訳): CACTI: スケーラブルなマルチタスクマルチステージ視覚模倣学習フレームワーク
- Authors: Zhao Mandi, Homanga Bharadhwaj, Vincent Moens, Shuran Song, Aravind
Rajeswaran, Vikash Kumar
- Abstract要約: キッチン環境におけるマルチタスク・マルチシーンロボット操作のレンズ下でのロボット学習のスケールアップのためのフレームワークを提案する。
CACTIという名前のフレームワークは,データ収集,データ拡張,視覚表現学習,模倣ポリシートレーニングの4つの段階を別々に扱う。
CACTIフレームワークでは、拡張段階の一部として、画像生成に最先端モデルを適用する利点を強調している。
- 参考スコア(独自算出の注目度): 33.88636835443266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing robots that are capable of many skills and generalization to
unseen scenarios requires progress on two fronts: efficient collection of large
and diverse datasets, and training of high-capacity policies on the collected
data. While large datasets have propelled progress in other fields like
computer vision and natural language processing, collecting data of comparable
scale is particularly challenging for physical systems like robotics. In this
work, we propose a framework to bridge this gap and better scale up robot
learning, under the lens of multi-task, multi-scene robot manipulation in
kitchen environments. Our framework, named CACTI, has four stages that
separately handle data collection, data augmentation, visual representation
learning, and imitation policy training. In the CACTI framework, we highlight
the benefit of adapting state-of-the-art models for image generation as part of
the augmentation stage, and the significant improvement of training efficiency
by using pretrained out-of-domain visual representations at the compression
stage. Experimentally, we demonstrate that 1) on a real robot setup, CACTI
enables efficient training of a single policy capable of 10 manipulation tasks
involving kitchen objects, and robust to varying layouts of distractor objects;
2) in a simulated kitchen environment, CACTI trains a single policy on 18
semantic tasks across up to 50 layout variations per task. The simulation task
benchmark and augmented datasets in both real and simulated environments will
be released to facilitate future research.
- Abstract(参考訳): 多くのスキルと未発見のシナリオへの一般化が可能なロボットの開発には、大規模で多様なデータセットの効率的な収集と、収集されたデータに対する高容量ポリシーのトレーニングという2つの面での進歩が必要だ。
大規模なデータセットはコンピュータビジョンや自然言語処理といった他の分野の進歩を加速させているが、ロボット工学のような物理システムでは、同等のスケールのデータを集めることが特に難しい。
本研究では,このギャップを解消し,キッチン環境におけるマルチタスクマルチセンシングロボット操作のレンズとして,ロボット学習のスケールアップを実現するフレームワークを提案する。
CACTIという名前のフレームワークは,データ収集,データ拡張,視覚表現学習,模倣ポリシートレーニングの4つの段階を別々に扱う。
CACTIフレームワークでは、画像生成に最先端モデルを適用する利点と、圧縮段階における事前訓練された領域外視覚表現を使用することによるトレーニング効率の大幅な向上を強調した。
実験では
1) 実際のロボットのセットアップにおいて、CACTIは、キッチンオブジェクトを含む10の操作作業が可能な単一ポリシーの効率的な訓練を可能にし、邪魔対象のレイアウトに頑健である。
2) シミュレーションキッチン環境では,CACTIは18のセマンティックタスクに対して,最大50のレイアウトバリエーションで単一のポリシをトレーニングする。
シミュレーションタスクベンチマークと、実環境とシミュレーション環境の両方のデータセットがリリースされ、将来の研究が促進される。
関連論文リスト
- Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。