論文の概要: Risk-aware Stochastic Shortest Path
- arxiv url: http://arxiv.org/abs/2203.01640v1
- Date: Thu, 3 Mar 2022 10:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 02:06:01.375607
- Title: Risk-aware Stochastic Shortest Path
- Title(参考訳): リスクアウェア確率的最短経路
- Authors: Tobias Meggendorfer
- Abstract要約: マルコフ決定過程(MDP)における最短経路(SSP)に対するリスク認識制御の問題点について検討する。
本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We treat the problem of risk-aware control for stochastic shortest path (SSP)
on Markov decision processes (MDP). Typically, expectation is considered for
SSP, which however is oblivious to the incurred risk. We present an alternative
view, instead optimizing conditional value-at-risk (CVaR), an established risk
measure. We treat both Markov chains as well as MDP and introduce, through
novel insights, two algorithms, based on linear programming and value
iteration, respectively. Both algorithms offer precise and provably correct
solutions. Evaluation of our prototype implementation shows that risk-aware
control is feasible on several moderately sized models.
- Abstract(参考訳): マルコフ決定過程(MDP)における確率的最短経路(SSP)に対するリスク認識制御の問題を扱う。
典型的には、sspに対する期待は考慮されるが、これは発生リスクに従わない。
本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。
我々はマルコフ連鎖とMDPの両方を扱い、それぞれ線形計画法と値反復法に基づく2つのアルゴリズムを新しい洞察を通じて導入する。
どちらのアルゴリズムも正確かつ確実に正しい解を提供する。
プロトタイプ実装の評価は, リスク認識制御が適度なモデルで実現可能であることを示す。
関連論文リスト
- Robust Stochastic Shortest-Path Planning via Risk-Sensitive Incremental Sampling [9.651071174735804]
本稿では,SSP問題に対するリスク対応型Rapidly-Exploring Random Trees (RRT*)計画アルゴリズムを提案する。
我々のモチベーションは、条件付きバリュー・アット・リスク尺度(CVaR)の段階的コヒーレンスと、SSP問題の最適部分構造に依存している。
解析の結果,木の成長過程にリスクを組み込むことで,騒音パラメータの変動に敏感でない長さの経路が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-16T11:21:52Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Regret Bounds for Markov Decision Processes with Recursive Optimized
Certainty Equivalents [3.8980564330208662]
本稿では,新しいエピソード型リスク感応型強化学習法を提案する。
本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。
我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
論文 参考訳(メタデータ) (2023-01-30T01:22:31Z) - Risk-Averse MDPs under Reward Ambiguity [9.929659318167731]
本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。
スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
論文 参考訳(メタデータ) (2023-01-03T11:06:30Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文 参考訳(メタデータ) (2021-03-26T20:49:14Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。