論文の概要: Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.08686v1
- Date: Fri, 17 Jun 2022 11:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 22:19:55.991380
- Title: Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement
Learning
- Title(参考訳): 強化学習による人間レベル2次元デキスタラスマニピュレーションを目指して
- Authors: Yuanpei Chen, Yaodong Yang, Tianhao Wu, Shengjie Wang, Xidong Feng,
Jiechuang Jiang, Stephen Marcus McAleer, Hao Dong, Zongqing Lu, Song-Chun Zhu
- Abstract要約: Bimanual Dexterous Hands Benchmark (Bi-DexHands) は、数十のバイマニュアル操作タスクと数千のターゲットオブジェクトを備えた2つのデキスタラスハンドを含むシミュレータである。
Bi-DexHandsのタスクは、認知科学の文献によると、人間の運動能力のレベルが異なるように設計されている。
- 参考スコア(独自算出の注目度): 73.92475751508452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-level dexterity is an important open problem in robotics.
However, tasks of dexterous hand manipulation, even at the baby level, are
challenging to solve through reinforcement learning (RL). The difficulty lies
in the high degrees of freedom and the required cooperation among heterogeneous
agents (e.g., joints of fingers). In this study, we propose the Bimanual
Dexterous Hands Benchmark (Bi-DexHands), a simulator that involves two
dexterous hands with tens of bimanual manipulation tasks and thousands of
target objects. Specifically, tasks in Bi-DexHands are designed to match
different levels of human motor skills according to cognitive science
literature. We built Bi-DexHands in the Issac Gym; this enables highly
efficient RL training, reaching 30,000+ FPS by only one single NVIDIA RTX 3090.
We provide a comprehensive benchmark for popular RL algorithms under different
settings; this includes Single-agent/Multi-agent RL, Offline RL, Multi-task RL,
and Meta RL. Our results show that the PPO type of on-policy algorithms can
master simple manipulation tasks that are equivalent up to 48-month human
babies (e.g., catching a flying object, opening a bottle), while multi-agent RL
can further help to master manipulations that require skilled bimanual
cooperation (e.g., lifting a pot, stacking blocks). Despite the success on each
single task, when it comes to acquiring multiple manipulation skills, existing
RL algorithms fail to work in most of the multi-task and the few-shot learning
settings, which calls for more substantial development from the RL community.
Our project is open sourced at https://github.com/PKU-MARL/DexterousHands.
- Abstract(参考訳): ロボット工学において、人間レベルのデキスタリティを達成することは重要なオープンな問題である。
しかし,乳児レベルにおいても手指操作の課題は強化学習(rl)による解決が困難である。
この難しさは、高い自由度と不均一なエージェント(例えば指の関節)間の必要な協力にある。
本研究では,2つのデキスタラスハンドと数十のバイマンダル操作タスク,数千の対象オブジェクトを含むシミュレータであるBimanual Dexterous Hands Benchmark(Bi-DexHands)を提案する。
具体的には、Bi-DexHandsのタスクは認知科学の文献によると、人間の運動能力のレベルが異なるように設計されている。
私たちはIssac GymにBi-DexHandsを組みました。これは高い効率のRLトレーニングを可能にし、NVIDIA RTX 3090を1つだけで3万 FPSに到達します。
一般的なRLアルゴリズムの総合ベンチマークを異なる設定で提供し、Single-agent/Multi-agent RL、Offline RL、Multi-task RL、Meta RLを含む。
以上の結果から,PPO型オンデマンドアルゴリズムは,48ヶ月の人間の乳児(例えば,空飛ぶ物体を捕獲し,ボトルを開ける)に匹敵する簡単な操作タスクを習得し,マルチエージェントRLは,熟練した双方向協調を必要とする操作(例えば,ポットを持ち上げる,積み重ねブロック)の習得にさらに役立てることが示唆された。
ひとつのタスクで成功しているにも関わらず、複数の操作スキルを取得するという点では、既存のRLアルゴリズムは、マルチタスクと数ショットの学習設定の大部分で機能せず、RLコミュニティからより実質的な開発が求められている。
私たちのプロジェクトはhttps://github.com/PKU-MARL/DexterousHands.comで公開されている。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文 参考訳(メタデータ) (2022-07-19T12:56:41Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。