論文の概要: Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.14749v1
- Date: Mon, 28 Mar 2022 13:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 16:39:17.589028
- Title: Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning
- Title(参考訳): 適応的リスク傾向:分散強化学習によるクラッタ環境におけるナノドローンナビゲーション
- Authors: Cheng Liu, Erik-Jan van Kampen, Guido C.H.E. de Croon
- Abstract要約: 適応型リスク傾向ポリシーを学習するための分散強化学習フレームワークを提案する。
本アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調整可能であることを示す。
- 参考スコア(独自算出の注目度): 17.940958199767234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enabling robots with the capability of assessing risk and making risk-aware
decisions is widely considered a key step toward ensuring robustness for robots
operating under uncertainty. In this paper, we consider the specific case of a
nano drone robot learning to navigate an apriori unknown environment while
avoiding obstacles under partial observability. We present a distributional
reinforcement learning framework in order to learn adaptive risk tendency
policies. Specifically, we propose to use tail conditional variance of the
learnt action-value distribution as an uncertainty measurement, and use a
exponentially weighted average forecasting algorithm to automatically adapt the
risk-tendency at run-time based on the observed uncertainty in the environment.
We show our algorithm can adjust its risk-sensitivity on the fly both in
simulation and real-world experiments and achieving better performance than
risk-neutral policy or risk-averse policies. Code and real-world experiment
video can be found in this repository:
\url{https://github.com/tudelft/risk-sensitive-rl.git}
- Abstract(参考訳): リスク評価能力とリスク認識決定能力を備えたロボットの開発は、不確実性の下で動作しているロボットの堅牢性を確保するための重要なステップとして広く考えられている。
本稿では,nano drone robotが部分的可観測性下で障害物を避けながら,aprioriの未知環境をナビゲートする特定の事例について考察する。
本稿では,適応的リスク傾向を学習するための分散強化学習フレームワークを提案する。
具体的には,学習行動値分布のテール条件分散を不確実性測定として使用し,指数重み付け平均予測アルゴリズムを用いて,環境内の観測された不確実性に基づいて,実行時のリスクテンデンシーを自動的に適応する手法を提案する。
提案アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調節し,リスクニュートラルポリシやリスク・アバースポリシよりも優れたパフォーマンスを実現する。
コードと実世界の実験ビデオはこのリポジトリにある。 \url{https://github.com/tudelft/risk-sensitive-rl.git}
関連論文リスト
- Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning [0.4218593777811082]
本研究は, DRLに基づくナビゲーションフレームワークにアレータリック, エピステミック, 予測不確実性推定を組み込む新しいアプローチを導入する。
本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。
論文 参考訳(メタデータ) (2024-09-16T18:49:38Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Learning Risk-Aware Quadrupedal Locomotion using Distributional Reinforcement Learning [12.156082576280955]
危険環境への展開には、ロボットが事故を防ぐための行動や動きに関連するリスクを理解する必要がある。
本稿では,分散強化学習を用いたリスクセンシティブな移動訓練手法を提案する。
シミュレーションおよび四足歩行ロボットANYmalにおいて,突発的リスクに敏感な移動行動を示す。
論文 参考訳(メタデータ) (2023-09-25T16:05:32Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。
これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。
リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文 参考訳(メタデータ) (2021-06-11T11:31:04Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Addressing Inherent Uncertainty: Risk-Sensitive Behavior Generation for
Automated Driving using Distributional Reinforcement Learning [0.0]
自動運転車におけるリスク感応行動生成のための2段階のアプローチを提案する。
まず, 深層分布強化学習を用いて, 不確実な環境下で最適政策を学習する。
実行中は、確立されたリスク基準を適用して最適なリスク感受性行動を選択する。
論文 参考訳(メタデータ) (2021-02-05T11:45:12Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。