論文の概要: Constrained Risk-Averse Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2012.02423v2
- Date: Sun, 28 Mar 2021 23:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:34:03.323825
- Title: Constrained Risk-Averse Markov Decision Processes
- Title(参考訳): 制約付きリスク逆マルコフ決定過程
- Authors: Mohamadreza Ahmadi, Ugo Rosolia, Michel D. Ingham, Richard M. Murray,
and Aaron D. Ames
- Abstract要約: リスク目標と制約を動的に整合させたマルコフ決定プロセスのポリシー設計の問題点を考察する。
制約付きリスク-逆問題より低いバウンドのマルコフポリシーを最適化した手法を提案する。
これらの結果から, 制約付きMDPの線形プログラムを, 総割引コストと制約付きで一般化できることが示唆された。
- 参考スコア(独自算出の注目度): 18.467950783426947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of designing policies for Markov decision processes
(MDPs) with dynamic coherent risk objectives and constraints. We begin by
formulating the problem in a Lagrangian framework. Under the assumption that
the risk objectives and constraints can be represented by a Markov risk
transition mapping, we propose an optimization-based method to synthesize
Markovian policies that lower-bound the constrained risk-averse problem. We
demonstrate that the formulated optimization problems are in the form of
difference convex programs (DCPs) and can be solved by the disciplined
convex-concave programming (DCCP) framework. We show that these results
generalize linear programs for constrained MDPs with total discounted expected
costs and constraints. Finally, we illustrate the effectiveness of the proposed
method with numerical experiments on a rover navigation problem involving
conditional-value-at-risk (CVaR) and entropic-value-at-risk (EVaR) coherent
risk measures.
- Abstract(参考訳): マルコフ決定プロセス(MDP)の方針を動的コヒーレントなリスク目標と制約で設計する問題を考察する。
まず、問題をLagrangianフレームワークで定式化することから始めます。
リスク目標と制約をマルコフリスク遷移マッピングで表現できるという仮定の下で,制約付きリスク回避問題の下限となるマルコフポリシーを合成する最適化ベース手法を提案する。
定式化された最適化問題は差分凸プログラム (dcps) の形式であり、disciplined convex-concave programming (dccp) フレームワークによって解決できることを実証する。
これらの結果は,制約付きmdpの線形プログラムを,期待コストと制約の合計値で一般化することを示す。
最後に,条件値-値-リスク(CVaR)とエントロピー-値-リスク(EVaR)のコヒーレントリスク対策を含むローバーナビゲーション問題に対する数値実験による提案手法の有効性について述べる。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - Regret Bounds for Markov Decision Processes with Recursive Optimized
Certainty Equivalents [3.8980564330208662]
本稿では,新しいエピソード型リスク感応型強化学習法を提案する。
本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。
我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
論文 参考訳(メタデータ) (2023-01-30T01:22:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Risk Conditioned Neural Motion Planning [14.018786843419862]
リスクバウンド・モーション・プランニングは、安全クリティカルなタスクにとって重要な問題であるが難しい問題である。
本稿では,リスク評論家による計画の実行リスクを推定するために,ソフトアクター批評家モデルの拡張を提案する。
計算時間と計画品質の両面で,我々のモデルの利点を示す。
論文 参考訳(メタデータ) (2021-08-04T05:33:52Z) - Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文 参考訳(メタデータ) (2021-03-26T20:49:14Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。