論文の概要: REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation
- arxiv url: http://arxiv.org/abs/2309.03322v1
- Date: Wed, 6 Sep 2023 19:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 15:09:14.590243
- Title: REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation
- Title(参考訳): REBOOT: 効率的なリアルタイムデキスタラスマニピュレーションのための再利用データ
- Authors: Zheyuan Hu, Aaron Rovinsky, Jianlan Luo, Vikash Kumar, Abhishek Gupta,
Sergey Levine
- Abstract要約: 本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
- 参考スコア(独自算出の注目度): 61.7171775202833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dexterous manipulation tasks involving contact-rich interactions pose a
significant challenge for both model-based control systems and imitation
learning algorithms. The complexity arises from the need for multi-fingered
robotic hands to dynamically establish and break contacts, balance
non-prehensile forces, and control large degrees of freedom. Reinforcement
learning (RL) offers a promising approach due to its general applicability and
capacity to autonomously acquire optimal manipulation strategies. However, its
real-world application is often hindered by the necessity to generate a large
number of samples, reset the environment, and obtain reward signals. In this
work, we introduce an efficient system for learning dexterous manipulation
skills with RL to alleviate these challenges. The main idea of our approach is
the integration of recent advances in sample-efficient RL and replay buffer
bootstrapping. This combination allows us to utilize data from different tasks
or objects as a starting point for training new tasks, significantly improving
learning efficiency. Additionally, our system completes the real-world training
cycle by incorporating learned resets via an imitation-based pickup policy as
well as learned reward functions, eliminating the need for manual resets and
reward engineering. We demonstrate the benefits of reusing past data as replay
buffer initialization for new tasks, for instance, the fast acquisition of
intricate manipulation skills in the real world on a four-fingered robotic
hand. (Videos: https://sites.google.com/view/reboot-dexterous)
- Abstract(参考訳): モデルベースの制御システムと模倣学習アルゴリズムの両方にとって、コンタクトリッチなインタラクションを含む巧妙な操作タスクは大きな課題となる。
この複雑さは、接触を動的に確立し破壊し、非包括力のバランスをとり、大きな自由度を制御するために、多指ロボットハンドの必要性から生じる。
強化学習(rl)は、その汎用的適用性と、最適な操作戦略を自律的に獲得する能力から、有望なアプローチを提供する。
しかし、実世界の応用は、大量のサンプルを生成し、環境をリセットし、報酬信号を得る必要性によってしばしば妨げられる。
本稿では,これらの課題を軽減すべく,rlを用いた巧妙な操作スキルを学ぶための効率的なシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
この組み合わせにより、異なるタスクやオブジェクトからのデータを新しいタスクのトレーニングの出発点として活用し、学習効率を大幅に向上できます。
さらに,本システムは,模倣に基づくピックアップポリシと学習報酬機能による学習リセットを取り入れ,手動リセットや報酬エンジニアリングの必要性をなくし,実世界のトレーニングサイクルを完了させる。
例えば,4本指のロボットハンドを用いた実世界の複雑な操作スキルの迅速な獲得など,新しいタスクの再生バッファ初期化として過去のデータを再利用するメリットを実証する。
(ビデオ:https://sites.google.com/view/reboot-dexterous)
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Robotic Surgery With Lean Reinforcement Learning [0.8258451067861933]
da vinciスキルシミュレータへの強化学習サポートの追加について述べる。
画像または状態データを使用して、シミュレータ環境でサブタスクを実行するようRLベースのエージェントに教えます。
ハイブリッドバッチ学習(HBL)と呼ばれるシンプルな実装システムを用いてRLのサンプル非効率性に取り組む。
論文 参考訳(メタデータ) (2021-05-03T16:52:26Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。