Fugu-MT 論文翻訳(概要): Risk-aware Stochastic Shortest Path

論文の概要: Risk-aware Stochastic Shortest Path

arxiv url: http://arxiv.org/abs/2203.01640v1
Date: Thu, 3 Mar 2022 10:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-05 02:06:01.375607
Title: Risk-aware Stochastic Shortest Path
Title（参考訳）: リスクアウェア確率的最短経路
Authors: Tobias Meggendorfer
Abstract要約: マルコフ決定過程(MDP)における最短経路(SSP)に対するリスク認識制御の問題点について検討する。本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We treat the problem of risk-aware control for stochastic shortest path (SSP) on Markov decision processes (MDP). Typically, expectation is considered for SSP, which however is oblivious to the incurred risk. We present an alternative view, instead optimizing conditional value-at-risk (CVaR), an established risk measure. We treat both Markov chains as well as MDP and introduce, through novel insights, two algorithms, based on linear programming and value iteration, respectively. Both algorithms offer precise and provably correct solutions. Evaluation of our prototype implementation shows that risk-aware control is feasible on several moderately sized models.
Abstract（参考訳）: マルコフ決定過程(MDP)における確率的最短経路(SSP)に対するリスク認識制御の問題を扱う。典型的には、sspに対する期待は考慮されるが、これは発生リスクに従わない。本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。我々はマルコフ連鎖とMDPの両方を扱い、それぞれ線形計画法と値反復法に基づく2つのアルゴリズムを新しい洞察を通じて導入する。どちらのアルゴリズムも正確かつ確実に正しい解を提供する。プロトタイプ実装の評価は, リスク認識制御が適度なモデルで実現可能であることを示す。

関連論文リスト

Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。 RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文参考訳（メタデータ） (2025-03-22T03:18:09Z)
Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文参考訳（メタデータ） (2025-03-07T10:55:12Z)
Robust Stochastic Shortest-Path Planning via Risk-Sensitive Incremental Sampling [9.651071174735804]
本稿では,SSP問題に対するリスク対応型Rapidly-Exploring Random Trees (RRT*)計画アルゴリズムを提案する。我々のモチベーションは、条件付きバリュー・アット・リスク尺度(CVaR)の段階的コヒーレンスと、SSP問題の最適部分構造に依存している。解析の結果,木の成長過程にリスクを組み込むことで,騒音パラメータの変動に敏感でない長さの経路が得られることがわかった。
論文参考訳（メタデータ） (2024-08-16T11:21:52Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。モデルに基づく手法では、MVPアルゴリズムの変種を設計する。特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文参考訳（メタデータ） (2023-01-31T06:54:06Z)
Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents [3.8980564330208662]
本稿では,新しいエピソード型リスク感応型強化学習法を提案する。本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
論文参考訳（メタデータ） (2023-01-30T01:22:31Z)
Risk-Averse MDPs under Reward Ambiguity [9.929659318167731]
本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
論文参考訳（メタデータ） (2023-01-03T11:06:30Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文参考訳（メタデータ） (2021-03-26T20:49:14Z)
Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文参考訳（メタデータ） (2021-02-10T22:34:33Z)
Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。 MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文参考訳（メタデータ） (2020-10-12T17:41:44Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。