論文の概要: Risk Conditioned Neural Motion Planning
- arxiv url: http://arxiv.org/abs/2108.01851v1
- Date: Wed, 4 Aug 2021 05:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:24:26.539118
- Title: Risk Conditioned Neural Motion Planning
- Title(参考訳): リスク条件付き神経運動計画
- Authors: Xin Huang, Meng Feng, Ashkan Jasour, Guy Rosman, Brian Williams
- Abstract要約: リスクバウンド・モーション・プランニングは、安全クリティカルなタスクにとって重要な問題であるが難しい問題である。
本稿では,リスク評論家による計画の実行リスクを推定するために,ソフトアクター批評家モデルの拡張を提案する。
計算時間と計画品質の両面で,我々のモデルの利点を示す。
- 参考スコア(独自算出の注目度): 14.018786843419862
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Risk-bounded motion planning is an important yet difficult problem for
safety-critical tasks. While existing mathematical programming methods offer
theoretical guarantees in the context of constrained Markov decision processes,
they either lack scalability in solving larger problems or produce conservative
plans. Recent advances in deep reinforcement learning improve scalability by
learning policy networks as function approximators. In this paper, we propose
an extension of soft actor critic model to estimate the execution risk of a
plan through a risk critic and produce risk-bounded policies efficiently by
adding an extra risk term in the loss function of the policy network. We define
the execution risk in an accurate form, as opposed to approximating it through
a summation of immediate risks at each time step that leads to conservative
plans. Our proposed model is conditioned on a continuous spectrum of risk
bounds, allowing the user to adjust the risk-averse level of the agent on the
fly. Through a set of experiments, we show the advantage of our model in terms
of both computational time and plan quality, compared to a state-of-the-art
mathematical programming baseline, and validate its performance in more
complicated scenarios, including nonlinear dynamics and larger state space.
- Abstract(参考訳): リスクバウンドモーションプランニングは、安全クリティカルなタスクにとって重要かつ困難な問題である。
既存の数学的プログラミング手法はマルコフ決定過程の文脈で理論的な保証を提供するが、より大きな問題を解決するためのスケーラビリティが欠けているか、保守的な計画を作成する。
深層強化学習の最近の進歩は,関数近似器としての学習ポリシーネットワークによるスケーラビリティを向上させる。
本稿では,リスク批判者を通じて計画の実行リスクを見積もるソフトアクタ批評家モデルの拡張を提案し,政策ネットワークの損失関数に余剰リスク項を追加することにより,リスクバウンドポリシーを効率的に作成する。
我々は、保守的な計画につながる各段階における即時リスクの総和を通じてそれを近似するのとは対照的に、実行リスクを正確に定義する。
提案モデルでは,リスク境界の連続スペクトルを条件とし,ユーザがエージェントのリスク回避レベルをオンザフライで調整できる。
一連の実験を通じて,最先端の数学的プログラミングベースラインと比較し,計算時間と計画品質の両面でモデルの利点を示し,非線形ダイナミクスやより大きな状態空間など,より複雑なシナリオでその性能を検証する。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。
我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文 参考訳(メタデータ) (2021-12-26T16:41:05Z) - Deep Reinforcement Learning for Equal Risk Pricing and Hedging under
Dynamic Expectile Risk Measures [1.2891210250935146]
そこで本稿では,非政治的なアクター批判型深層強化学習アルゴリズムにより,オプションに対する高品質な時間一貫したヘッジポリシーを同定できることを示す。
簡単なバニラオプションとよりエキゾチックなバスケットオプションの両方を含む数値実験により, 単純環境, ほぼ最適なヘッジポリシ, 高精度な価格で, かつ, 多様な成熟度を同時に生成できることが確認された。
全体として、リスクを後回しに評価した場合に、静的リスク測定によって生成された戦略を実際に上回ります。
論文 参考訳(メタデータ) (2021-09-09T02:52:06Z) - Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文 参考訳(メタデータ) (2021-03-26T20:49:14Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Entropic Risk Constrained Soft-Robust Policy Optimization [12.362670630646805]
モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。
本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-20T23:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。