論文の概要: Constrained Reinforcement Learning for Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2301.09766v1
- Date: Tue, 24 Jan 2023 00:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:38:40.145679
- Title: Constrained Reinforcement Learning for Dexterous Manipulation
- Title(参考訳): ディクサラスマニピュレーションのための制約付き強化学習
- Authors: Abhineet Jain, Jack Kolb and Harish Ravichandar
- Abstract要約: 物体移動を行う24-DOFロボットハンドラーに位置ベース制約を加えることの効果について検討する。
単純な幾何学的制約は、ロボットが制約なしでより早く物体に向かって動くことを学べることを確実にする。
これらの発見は、ロボットが敏感で安全な動作を素早く達成し、ハードウェアの展開に関する懸念を緩和する上で、いかにシンプルな制約が役立つかを明らかにした。
- 参考スコア(独自算出の注目度): 0.6193838300896449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing learning approaches to dexterous manipulation use demonstrations or
interactions with the environment to train black-box neural networks that
provide little control over how the robot learns the skills or how it would
perform post training. These approaches pose significant challenges when
implemented on physical platforms given that, during initial stages of
training, the robot's behavior could be erratic and potentially harmful to its
own hardware, the environment, or any humans in the vicinity. A potential way
to address these limitations is to add constraints during learning that
restrict and guide the robot's behavior during training as well as roll outs.
Inspired by the success of constrained approaches in other domains, we
investigate the effects of adding position-based constraints to a 24-DOF robot
hand learning to perform object relocation using Constrained Policy
Optimization. We find that a simple geometric constraint can ensure the robot
learns to move towards the object sooner than without constraints. Further,
training with this constraint requires a similar number of samples as its
unconstrained counterpart to master the skill. These findings shed light on how
simple constraints can help robots achieve sensible and safe behavior quickly
and ease concerns surrounding hardware deployment. We also investigate the
effects of the strictness of these constraints and report findings that provide
insights into how different degrees of strictness affect learning outcomes. Our
code is available at
https://github.com/GT-STAR-Lab/constrained-rl-dexterous-manipulation.
- Abstract(参考訳): 既存の学習アプローチでは、デモや環境との相互作用を使ってブラックボックスニューラルネットワークをトレーニングし、ロボットがどのようにスキルを学ぶか、ポストトレーニングを実行するかをほとんど制御できない。
これらのアプローチは、トレーニングの初期段階において、ロボットの動作が自身のハードウェアや環境、あるいはその周辺にいる人間に不利で潜在的に有害である可能性があるため、物理的プラットフォームに実装された場合、重大な課題となる。
これらの制限に対処する潜在的な方法は、トレーニング中のロボットの動作やロールアウトを制限し、ガイドする学習中に制約を加えることである。
他領域における制約付きアプローチの成功に触発されて,24-DOFロボットハンドラーに位置に基づく制約を加えて,制約付きポリシー最適化を用いてオブジェクトの移動を行う方法を検討した。
単純な幾何学的制約は、ロボットが制約なしに物体に向かって動くことを学習することを保証する。
さらに、この制約によるトレーニングでは、スキルを習得するためには、非制約のサンプルと同じ数のサンプルが必要になる。
これらの発見は、ロボットが敏感で安全な動作を素早く達成し、ハードウェアの展開に関する懸念を緩和する上で、いかにシンプルな制約が役立つかを明らかにした。
また,これらの制約の厳密性の影響を調査し,厳密度の違いが学習結果に与える影響に関する知見を報告する。
私たちのコードはhttps://github.com/GT-STAR-Lab/constrained-rl-dexterous-manipulationで利用可能です。
関連論文リスト
- Learning to Grasp the Ungraspable with Emergent Extrinsic Dexterity [22.01389127145982]
単純なグリッパーは、外部環境を活用できれば、より複雑な操作タスクを解決できる。
これらの制約に対処するための強化学習に基づくシステムを開発する。
これは、様々な大きさ、密度、表面摩擦、形状を78%の成功率で一般化するシンプルなグリップで、動的で接触に富んだ動きを示す。
論文 参考訳(メタデータ) (2022-11-02T22:09:24Z) - Differentiable Constrained Imitation Learning for Robot Motion Planning
and Control [0.7559720049837457]
この作業は、制約のあるロボットの動き計画とオフラインによる制御の柔軟性を統合する。
本手法は,オフラインを用いたロボット動作計画と制御を制約する一般的な枠組みを構成する。
移動ロボットナビゲーションと自動走行のシミュレーション実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-21T08:19:45Z) - Constrained Dynamic Movement Primitives for Safe Learning of Motor
Skills [25.06692536893836]
ロボット作業空間における制約満足度を実現するための制約付き動的運動プリミティブ(CDMP)を提案する。
異なる環境における異なるマニピュレータを用いた提案アルゴリズムの実装を示すビデオがここにある。
論文 参考訳(メタデータ) (2022-09-28T22:59:33Z) - Safe reinforcement learning of dynamic high-dimensional robotic tasks:
navigation, manipulation, interaction [31.553783147007177]
強化学習では、損傷を起こさない環境を探索する上で、安全はより基本的なものである。
本稿では,各種ロボット作業の強化学習のための安全探索の新たな定式化について紹介する。
我々のアプローチは、幅広い種類のロボットプラットフォームに適用され、データから学んだ複雑な衝突制約の下でも安全を強制する。
論文 参考訳(メタデータ) (2022-09-27T11:23:49Z) - A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free
Reinforcement Learning [86.06110576808824]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。
機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界では4分で学習できる。
論文 参考訳(メタデータ) (2022-08-16T17:37:36Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement
Learning [49.04274612323564]
障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。
本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。
データ駆動型エンドツーエンドディープラーニングアプローチとして,障害回避問題に取り組む。
論文 参考訳(メタデータ) (2021-03-08T13:05:46Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - DREAM Architecture: a Developmental Approach to Open-Ended Learning in
Robotics [44.62475518267084]
我々は、この再記述プロセス段階を段階的にブートストラップし、適切なモチベーションを持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達するための発達的認知アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-13T09:29:40Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。