論文の概要: Risk-Conditioned Distributional Soft Actor-Critic for Risk-Sensitive
Navigation
- arxiv url: http://arxiv.org/abs/2104.03111v2
- Date: Fri, 9 Apr 2021 11:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 11:33:10.633572
- Title: Risk-Conditioned Distributional Soft Actor-Critic for Risk-Sensitive
Navigation
- Title(参考訳): risk-conditioned distributional soft actor-critic for risk-sensitive navigation
- Authors: Jinyoung Choi, Christopher R. Dance, Jung-eun Kim, Seulbin Hwang,
Kyung-sik Park
- Abstract要約: 本稿では,不確実性を認識したポリシを学習し,高額な微調整や再訓練を行うことなくリスク尺度を変更できる新しい分散RLアルゴリズムを提案する。
本手法は,部分的に観測されたナビゲーションタスクにおけるベースラインよりも優れた性能と安全性を示す。
- 参考スコア(独自算出の注目度): 11.159052409842923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern navigation algorithms based on deep reinforcement learning (RL) show
promising efficiency and robustness. However, most deep RL algorithms operate
in a risk-neutral manner, making no special attempt to shield users from
relatively rare but serious outcomes, even if such shielding might cause little
loss of performance. Furthermore, such algorithms typically make no provisions
to ensure safety in the presence of inaccuracies in the models on which they
were trained, beyond adding a cost-of-collision and some domain randomization
while training, in spite of the formidable complexity of the environments in
which they operate. In this paper, we present a novel distributional RL
algorithm that not only learns an uncertainty-aware policy, but can also change
its risk measure without expensive fine-tuning or retraining. Our method shows
superior performance and safety over baselines in partially-observed navigation
tasks. We also demonstrate that agents trained using our method can adapt their
policies to a wide range of risk measures at run-time.
- Abstract(参考訳): 深部強化学習(RL)に基づく現代のナビゲーションアルゴリズムは、有望な効率性と堅牢性を示す。
しかし、ほとんどの深いrlアルゴリズムはリスク中立な方法で動作し、たとえそのような遮蔽が性能の低下をほとんど起こさないとしても、ユーザーを比較的稀だが深刻な結果から守る特別な試みはしない。
さらに、そのようなアルゴリズムは訓練中のモデルの不正確さを確実にするために、訓練中にコスト・オブ・コリジョン(英語版)といくつかのドメイン・ランダム化を加える以外に、訓練対象の環境がひどく複雑であるにもかかわらず、規定を作らない。
本稿では,不確実性を認識したポリシを学習するだけでなく,コストのかかる微調整や再訓練を伴わずにリスク尺度を変更できる新しい分散RLアルゴリズムを提案する。
本手法は,部分的に観測されたナビゲーションタスクにおいて,ベースラインよりも優れた性能と安全性を示す。
また,本手法を用いて訓練したエージェントが,実行時に幅広いリスク対策に適応できることを実証した。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning [17.940958199767234]
適応型リスク傾向ポリシーを学習するための分散強化学習フレームワークを提案する。
本アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調整可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T13:39:58Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Improving Robustness via Risk Averse Distributional Reinforcement
Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。
本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-01T20:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。