論文の概要: Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion
- arxiv url: http://arxiv.org/abs/2002.09676v1
- Date: Sat, 22 Feb 2020 10:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 19:51:18.762509
- Title: Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion
- Title(参考訳): 動的四足歩行ロボットの誘導制約ポリシ最適化
- Authors: Siddhant Gangapurwala, Alexander Mitchell and Ioannis Havoutis
- Abstract要約: 我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
- 参考スコア(独自算出の注目度): 78.46388769788405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep reinforcement learning (RL) uses model-free techniques to optimize
task-specific control policies. Despite having emerged as a promising approach
for complex problems, RL is still hard to use reliably for real-world
applications. Apart from challenges such as precise reward function tuning,
inaccurate sensing and actuation, and non-deterministic response, existing RL
methods do not guarantee behavior within required safety constraints that are
crucial for real robot scenarios. In this regard, we introduce guided
constrained policy optimization (GCPO), an RL framework based upon our
implementation of constrained proximal policy optimization (CPPO) for tracking
base velocity commands while following the defined constraints. We also
introduce schemes which encourage state recovery into constrained regions in
case of constraint violations. We present experimental results of our training
method and test it on the real ANYmal quadruped robot. We compare our approach
against the unconstrained RL method and show that guided constrained RL offers
faster convergence close to the desired optimum resulting in an optimal, yet
physically feasible, robotic control behavior without the need for precise
reward function tuning.
- Abstract(参考訳): 深層強化学習(RL)は、タスク固有の制御ポリシーを最適化するために、モデルフリーの技術を使用する。
複雑な問題に対する有望なアプローチとして現れたが、現実のアプリケーションで確実に使用するのは依然として困難である。
正確な報酬関数チューニング、不正確なセンシングとアクティベーション、非決定論的応答などの課題とは別に、既存のrl法は、実際のロボットシナリオに不可欠な安全制約の中での動作を保証するものではない。
そこで本研究では,制約付きポリシー最適化(GCPO)を提案する。このフレームワークは,制限付きポリシー最適化(CPPO)の実装に基づいて,規定された制約に従ってベースベロシティコマンドを追跡する。
また,制約違反の場合には,制約領域への状態回復を促すスキームも導入する。
実ANYmal四足歩行ロボットを用いてトレーニング手法の実験結果と実験を行った。
提案手法を制約のないrl法と比較し,誘導制約付きrl法が最適な最適値に近い高速収束を提供し,最適だが物理的に実現可能なロボット制御動作を,精密な報酬機能チューニングを必要とせずに実現可能であることを示した。
関連論文リスト
- Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。