論文の概要: Learning Risk-Aware Quadrupedal Locomotion using Distributional
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.14246v1
- Date: Mon, 25 Sep 2023 16:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 14:50:04.788953
- Title: Learning Risk-Aware Quadrupedal Locomotion using Distributional
Reinforcement Learning
- Title(参考訳): 分布強化学習を用いた学習リスクアウェア四足歩行
- Authors: Lukas Schneider, Jonas Frey, Takahiro Miki, Marco Hutter
- Abstract要約: 本稿では,分散強化学習を用いたリスクセンシティブな移動訓練手法を提案する。
本研究では,ロボットが環境と相互作用する際の不確実性を考慮した完全な値分布を推定する。
シミュレーションおよび四足歩行ロボットANYmalにおいて,突発的リスクに敏感な移動行動を示す。
- 参考スコア(独自算出の注目度): 13.279646927568937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deployment in hazardous environments requires robots to understand the risks
associated with their actions and movements to prevent accidents. Despite its
importance, these risks are not explicitly modeled by currently deployed
locomotion controllers for legged robots. In this work, we propose a risk
sensitive locomotion training method employing distributional reinforcement
learning to consider safety explicitly. Instead of relying on a value
expectation, we estimate the complete value distribution to account for
uncertainty in the robot's interaction with the environment. The value
distribution is consumed by a risk metric to extract risk sensitive value
estimates. These are integrated into Proximal Policy Optimization (PPO) to
derive our method, Distributional Proximal Policy Optimization (DPPO). The risk
preference, ranging from risk-averse to risk-seeking, can be controlled by a
single parameter, which enables to adjust the robot's behavior dynamically.
Importantly, our approach removes the need for additional reward function
tuning to achieve risk sensitivity. We show emergent risk sensitive locomotion
behavior in simulation and on the quadrupedal robot ANYmal.
- Abstract(参考訳): 危険な環境での展開では、ロボットは事故を防ぐために行動や動きにかかわるリスクを理解する必要がある。
その重要性にもかかわらず、これらのリスクは足付きロボットに現在配備されているロコモーションコントローラによって明示的にモデル化されていない。
本研究では,分散強化学習を用いて安全性を明示的に考慮し,リスクに敏感なロコモーショントレーニング手法を提案する。
本研究では,ロボットが環境と相互作用する際の不確実性を考慮した完全な値分布を推定する。
値分布はリスクメトリックによって消費され、リスク敏感な値推定を抽出する。
これらをPPO(Proximal Policy Optimization)に統合し,その手法であるDPPO(Distributedal Proximal Policy Optimization)を導出する。
リスク・アバースからリスク・サーキングまで、リスク・プライオリティは単一のパラメータで制御でき、ロボットの動作を動的に調整することができる。
重要なことに、このアプローチはリスク感受性を達成するために追加の報酬関数チューニングの必要性を取り除きます。
シミュレーションおよび四足歩行ロボットanymalにおいて,創発的リスクに敏感な移動行動を示す。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning [17.940958199767234]
適応型リスク傾向ポリシーを学習するための分散強化学習フレームワークを提案する。
本アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調整可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T13:39:58Z) - Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。
これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。
リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文 参考訳(メタデータ) (2021-06-11T11:31:04Z) - Addressing Inherent Uncertainty: Risk-Sensitive Behavior Generation for
Automated Driving using Distributional Reinforcement Learning [0.0]
自動運転車におけるリスク感応行動生成のための2段階のアプローチを提案する。
まず, 深層分布強化学習を用いて, 不確実な環境下で最適政策を学習する。
実行中は、確立されたリスク基準を適用して最適なリスク感受性行動を選択する。
論文 参考訳(メタデータ) (2021-02-05T11:45:12Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning [75.17074235764757]
割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
論文 参考訳(メタデータ) (2020-04-22T22:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。