論文の概要: DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training
- arxiv url: http://arxiv.org/abs/2305.12127v1
- Date: Sat, 20 May 2023 07:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:25:43.578467
- Title: DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training
- Title(参考訳): DexPBT:人口ベーストレーニングによるハンドアームシステムのデクサラスマニピュレーションのスケールアップ
- Authors: Aleksei Petrenko, Arthur Allshire, Gavriel State, Ankur Handa, Viktor
Makoviychuk
- Abstract要約: マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。
我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 10.808149303943948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose algorithms and methods that enable learning
dexterous object manipulation using simulated one- or two-armed robots equipped
with multi-fingered hand end-effectors. Using a parallel GPU-accelerated
physics simulator (Isaac Gym), we implement challenging tasks for these robots,
including regrasping, grasp-and-throw, and object reorientation. To solve these
problems we introduce a decentralized Population-Based Training (PBT) algorithm
that allows us to massively amplify the exploration capabilities of deep
reinforcement learning. We find that this method significantly outperforms
regular end-to-end learning and is able to discover robust control policies in
challenging tasks. Video demonstrations of learned behaviors and the code can
be found at https://sites.google.com/view/dexpbt
- Abstract(参考訳): 本研究では,多指ハンドエンドエフェクタを備えたシミュレーションロボットを用いて,デクスターオブジェクト操作を学習するアルゴリズムと手法を提案する。
並列GPU加速物理シミュレータ(Isaac Gym)を用いて、リグラピング、グリップ・アンド・スロー、オブジェクトのリオリエンテーションなど、これらのロボットに挑戦的なタスクを実行する。
これらの問題を解決するために、深層強化学習の探索能力を大幅に増幅する分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
本研究では,本手法が通常のエンドツーエンド学習を著しく上回り,困難なタスクにおいて堅牢な制御ポリシーを発見できることを示す。
学習した振る舞いとコードのデモビデオは、https://sites.google.com/view/dexpbtで見ることができる。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Dexterous Imitation Made Easy: A Learning-Based Framework for Efficient
Dexterous Manipulation [13.135013586592585]
DIME(Dexterous Made Easy)は、デクスタラスな操作のための新しい模倣学習フレームワークである。
DIMEは、人間のオペレーターを観察し、ロボットハンドを遠隔操作するために、単一のRGBカメラしか必要としない。
シミュレーションと実ロボットベンチマークの両方において、複雑な手動操作タスクを解くためにDIMEを使用できることを示す。
論文 参考訳(メタデータ) (2022-03-24T17:58:54Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Learning of Long-Horizon Sparse-Reward Robotic Manipulator Tasks with
Base Controllers [26.807673929816026]
本稿では,1つ以上の従来型ベースコントローラを用いた長軸スパース・リワードタスクの学習手法を提案する。
提案アルゴリズムは,既存のベースコントローラを探索,価値学習,ポリシー更新の段階に組み込む。
我々の方法は、既存の産業用ロボット操作システムを利用して、より柔軟でインテリジェントなコントローラを構築する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-24T14:23:57Z) - The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。
本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。
我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文 参考訳(メタデータ) (2020-04-27T03:36:10Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。