論文の概要: Risk-Averse Stochastic Shortest Path Planning
- arxiv url: http://arxiv.org/abs/2103.14727v1
- Date: Fri, 26 Mar 2021 20:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:37:40.394506
- Title: Risk-Averse Stochastic Shortest Path Planning
- Title(参考訳): リスク・アバース確率的最短経路計画
- Authors: Mohamadreza Ahmadi, Anushri Dixit, Joel W. Burdick, and Aaron D. Ames
- Abstract要約: 最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
- 参考スコア(独自算出の注目度): 25.987787625028204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the stochastic shortest path planning problem in MDPs, i.e., the
problem of designing policies that ensure reaching a goal state from a given
initial state with minimum accrued cost. In order to account for rare but
important realizations of the system, we consider a nested dynamic coherent
risk total cost functional rather than the conventional risk-neutral total
expected cost. Under some assumptions, we show that optimal, stationary,
Markovian policies exist and can be found via a special Bellman's equation. We
propose a computational technique based on difference convex programs (DCPs) to
find the associated value functions and therefore the risk-averse policies. A
rover navigation MDP is used to illustrate the proposed methodology with
conditional-value-at-risk (CVaR) and entropic-value-at-risk (EVaR) coherent
risk measures.
- Abstract(参考訳): 我々は,MDPにおける確率的最短経路計画問題,すなわち,所定の初期状態から目標状態に到達するための政策を最小コストで設計する問題を考察する。
稀だが重要なシステムを実現するために,従来のリスクニュートラルな総コストではなく,ネストされた動的コヒーレントなリスク総コスト関数を考える。
いくつかの仮定の下では、最適で定常なマルコフのポリシーが存在し、特別なベルマン方程式から発見できることが示される。
本稿では,差分凸プログラム(DCP)に基づく計算手法を提案する。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Risk Conditioned Neural Motion Planning [14.018786843419862]
リスクバウンド・モーション・プランニングは、安全クリティカルなタスクにとって重要な問題であるが難しい問題である。
本稿では,リスク評論家による計画の実行リスクを推定するために,ソフトアクター批評家モデルの拡張を提案する。
計算時間と計画品質の両面で,我々のモデルの利点を示す。
論文 参考訳(メタデータ) (2021-08-04T05:33:52Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Constrained Risk-Averse Markov Decision Processes [18.467950783426947]
リスク目標と制約を動的に整合させたマルコフ決定プロセスのポリシー設計の問題点を考察する。
制約付きリスク-逆問題より低いバウンドのマルコフポリシーを最適化した手法を提案する。
これらの結果から, 制約付きMDPの線形プログラムを, 総割引コストと制約付きで一般化できることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T06:12:11Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z) - Reinforcement Learning of Risk-Constrained Policies in Markov Decision
Processes [5.081241420920605]
マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。
破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。
我々の主な貢献は、UDTのような探索とMDPとの学習的相互作用を組み合わせた効率的なリスク制約型プランニングアルゴリズムである。
論文 参考訳(メタデータ) (2020-02-27T13:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。