論文の概要: Teaching a Robot to Walk Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.07031v1
- Date: Mon, 13 Dec 2021 21:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 06:18:09.054924
- Title: Teaching a Robot to Walk Using Reinforcement Learning
- Title(参考訳): 強化学習を用いたロボットの歩行指導
- Authors: Jack Dibachi and Jacob Azoulay
- Abstract要約: 強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical control techniques such as PID and LQR have been used effectively
in maintaining a system state, but these techniques become more difficult to
implement when the model dynamics increase in complexity and sensitivity. For
adaptive robotic locomotion tasks with several degrees of freedom, this task
becomes infeasible with classical control techniques. Instead, reinforcement
learning can train optimal walking policies with ease. We apply deep Q-learning
and augmented random search (ARS) to teach a simulated two-dimensional bipedal
robot how to walk using the OpenAI Gym BipedalWalker-v3 environment. Deep
Q-learning did not yield a high reward policy, often prematurely converging to
suboptimal local maxima likely due to the coarsely discretized action space.
ARS, however, resulted in a better trained robot, and produced an optimal
policy which officially "solves" the BipedalWalker-v3 problem. Various naive
policies, including a random policy, a manually encoded inch forward policy,
and a stay still policy, were used as benchmarks to evaluate the proficiency of
the learning algorithm results.
- Abstract(参考訳): PIDやLQRのような古典的な制御技術はシステム状態の維持に効果的に利用されてきたが、モデルダイナミクスが複雑性と感度を増大させると実装が困難になる。
数自由度を持つ適応型ロボット移動タスクの場合、このタスクは古典的な制御技術では不可能になる。
強化学習は、簡単に最適な歩行ポリシーを訓練することができる。
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,深層Q-ラーニングとARSを用いて,シミュレーションされた2次元2足歩行ロボットの歩行方法を教える。
深部Q-ラーニングは高い報奨方針を示さず、しばしば粗い離散化された行動空間のために、適度な局所的最大値に早急に収束した。
しかし、ARSはより良い訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
学習アルゴリズムの結果の習熟度を評価するためのベンチマークとして,ランダムポリシ,手作業で符号化したinchフォワードポリシ,スティルスティルポリシなど,さまざまなナイーブなポリシが用いられた。
関連論文リスト
- Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Reinforcement Learning with Adaptive Curriculum Dynamics Randomization
for Fault-Tolerant Robot Control [4.9631159466100305]
ACDRアルゴリズムは、ランダムなアクチュエータ故障条件下で四足歩行ロボットを適応的に訓練することができる。
ACDRアルゴリズムは、アクチュエータ故障を検出するための追加モジュールを必要としないロボットシステムを構築するために使用できる。
論文 参考訳(メタデータ) (2021-11-19T01:55:57Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。