論文の概要: Constrained Reinforcement Learning for Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2301.09766v1
- Date: Tue, 24 Jan 2023 00:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:38:40.145679
- Title: Constrained Reinforcement Learning for Dexterous Manipulation
- Title(参考訳): ディクサラスマニピュレーションのための制約付き強化学習
- Authors: Abhineet Jain, Jack Kolb and Harish Ravichandar
- Abstract要約: 物体移動を行う24-DOFロボットハンドラーに位置ベース制約を加えることの効果について検討する。
単純な幾何学的制約は、ロボットが制約なしでより早く物体に向かって動くことを学べることを確実にする。
これらの発見は、ロボットが敏感で安全な動作を素早く達成し、ハードウェアの展開に関する懸念を緩和する上で、いかにシンプルな制約が役立つかを明らかにした。
- 参考スコア(独自算出の注目度): 0.6193838300896449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing learning approaches to dexterous manipulation use demonstrations or
interactions with the environment to train black-box neural networks that
provide little control over how the robot learns the skills or how it would
perform post training. These approaches pose significant challenges when
implemented on physical platforms given that, during initial stages of
training, the robot's behavior could be erratic and potentially harmful to its
own hardware, the environment, or any humans in the vicinity. A potential way
to address these limitations is to add constraints during learning that
restrict and guide the robot's behavior during training as well as roll outs.
Inspired by the success of constrained approaches in other domains, we
investigate the effects of adding position-based constraints to a 24-DOF robot
hand learning to perform object relocation using Constrained Policy
Optimization. We find that a simple geometric constraint can ensure the robot
learns to move towards the object sooner than without constraints. Further,
training with this constraint requires a similar number of samples as its
unconstrained counterpart to master the skill. These findings shed light on how
simple constraints can help robots achieve sensible and safe behavior quickly
and ease concerns surrounding hardware deployment. We also investigate the
effects of the strictness of these constraints and report findings that provide
insights into how different degrees of strictness affect learning outcomes. Our
code is available at
https://github.com/GT-STAR-Lab/constrained-rl-dexterous-manipulation.
- Abstract(参考訳): 既存の学習アプローチでは、デモや環境との相互作用を使ってブラックボックスニューラルネットワークをトレーニングし、ロボットがどのようにスキルを学ぶか、ポストトレーニングを実行するかをほとんど制御できない。
これらのアプローチは、トレーニングの初期段階において、ロボットの動作が自身のハードウェアや環境、あるいはその周辺にいる人間に不利で潜在的に有害である可能性があるため、物理的プラットフォームに実装された場合、重大な課題となる。
これらの制限に対処する潜在的な方法は、トレーニング中のロボットの動作やロールアウトを制限し、ガイドする学習中に制約を加えることである。
他領域における制約付きアプローチの成功に触発されて,24-DOFロボットハンドラーに位置に基づく制約を加えて,制約付きポリシー最適化を用いてオブジェクトの移動を行う方法を検討した。
単純な幾何学的制約は、ロボットが制約なしに物体に向かって動くことを学習することを保証する。
さらに、この制約によるトレーニングでは、スキルを習得するためには、非制約のサンプルと同じ数のサンプルが必要になる。
これらの発見は、ロボットが敏感で安全な動作を素早く達成し、ハードウェアの展開に関する懸念を緩和する上で、いかにシンプルな制約が役立つかを明らかにした。
また,これらの制約の厳密性の影響を調査し,厳密度の違いが学習結果に与える影響に関する知見を報告する。
私たちのコードはhttps://github.com/GT-STAR-Lab/constrained-rl-dexterous-manipulationで利用可能です。
関連論文リスト
- Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications [21.98309272057848]
本稿では,学習に基づくロボットシステムに対して,複雑な安全制約を原則的に課す方法について述べる。
我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。
実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-13T20:55:15Z) - Learning Shared Safety Constraints from Multi-task Demonstrations [53.116648461888936]
安全なタスク完了のエキスパートによる実証から制約を学習する方法を示す。
私たちは、専門家が取ることができたが、選択しなかった、高い報酬を与える行動を禁じる制約を学びます。
高次元連続制御タスクのシミュレーション実験により本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-09-01T19:37:36Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。
我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-05-20T07:25:27Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Differentiable Constrained Imitation Learning for Robot Motion Planning
and Control [0.26999000177990923]
我々は,交通エージェントのシミュレーションだけでなく,ロボットの動作計画と制御を制約するフレームワークを開発した。
モバイルロボットと自動運転アプリケーションに焦点をあてる。
移動ロボットナビゲーションと自動走行のシミュレーション実験は,提案手法の性能を示す証拠となる。
論文 参考訳(メタデータ) (2022-10-21T08:19:45Z) - Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement
Learning [49.04274612323564]
障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。
本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。
データ駆動型エンドツーエンドディープラーニングアプローチとして,障害回避問題に取り組む。
論文 参考訳(メタデータ) (2021-03-08T13:05:46Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - DREAM Architecture: a Developmental Approach to Open-Ended Learning in
Robotics [44.62475518267084]
我々は、この再記述プロセス段階を段階的にブートストラップし、適切なモチベーションを持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達するための発達的認知アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-13T09:29:40Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。