論文の概要: Forward-PECVaR Algorithm: Exact Evaluation for CVaR SSPs
- arxiv url: http://arxiv.org/abs/2303.00672v1
- Date: Wed, 1 Mar 2023 17:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:04:25.436050
- Title: Forward-PECVaR Algorithm: Exact Evaluation for CVaR SSPs
- Title(参考訳): 前向きPECVaRアルゴリズム:CVaR SSPの厳密な評価
- Authors: Willy Arthur Silva Reis, Denis Benevolo Pais, Valdinei Freire, Karina
Valdivia Delgado
- Abstract要約: Conditional Value at Risk (CVaR)は、任意のレベルのリスクをモデリングできる基準である。
非一様コストでCVaR-SSPの定常ポリシーを正確に評価するアルゴリズムであるForward-PECVaRを提案する。
- 参考スコア(独自算出の注目度): 1.347733333991357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Stochastic Shortest Path (SSP) problem models probabilistic
sequential-decision problems where an agent must pursue a goal while minimizing
a cost function. Because of the probabilistic dynamics, it is desired to have a
cost function that considers risk. Conditional Value at Risk (CVaR) is a
criterion that allows modeling an arbitrary level of risk by considering the
expectation of a fraction $\alpha$ of worse trajectories. Although an optimal
policy is non-Markovian, solutions of CVaR-SSP can be found approximately with
Value Iteration based algorithms such as CVaR Value Iteration with Linear
Interpolation (CVaRVIQ) and CVaR Value Iteration via Quantile Representation
(CVaRVILI). These type of solutions depends on the algorithm's parameters such
as the number of atoms and $\alpha_0$ (the minimum $\alpha$). To compare the
policies returned by these algorithms, we need a way to exactly evaluate
stationary policies of CVaR-SSPs. Although there is an algorithm that evaluates
these policies, this only works on problems with uniform costs. In this paper,
we propose a new algorithm, Forward-PECVaR (ForPECVaR), that evaluates exactly
stationary policies of CVaR-SSPs with non-uniform costs. We evaluate
empirically CVaR Value Iteration algorithms that found solutions approximately
regarding their quality compared with the exact solution, and the influence of
the algorithm parameters in the quality and scalability of the solutions.
Experiments in two domains show that it is important to use an $\alpha_0$
smaller than the $\alpha$ target and an adequate number of atoms to obtain a
good approximation.
- Abstract(参考訳): 確率的最短経路(SSP)問題は、エージェントがコスト関数を最小化しながら目標を追求しなければならない確率論的逐次決定問題をモデル化する。
確率力学のため、リスクを考慮したコスト関数を持つことが望まれる。
Conditional Value at Risk(CVaR)とは、リスクの任意のレベルをモデル化するための基準である。
最適ポリシーはマルコフ的ではないが、CVaR-SSPの解は、線形補間によるCVaR値反復(CVaRVIQ)やCVaR値反復(CVaRVILI)のような値反復に基づくアルゴリズムとほぼ一致する。
これらのタイプの解は、原子の数や$\alpha_0$(最小の$\alpha$)のようなアルゴリズムのパラメータに依存する。
これらのアルゴリズムによって返されるポリシーを比較するためには,CVaR-SSPの定常ポリシーを正確に評価する方法が必要である。
これらのポリシーを評価するアルゴリズムはあるが、これは一様コストの問題にのみ当てはまる。
本稿では,不均一なコストでCVaR-SSPの定常ポリシーを正確に評価するアルゴリズムであるForward-PECVaRを提案する。
そこで本研究では,cvar値反復アルゴリズムについて,厳密な解と比較し,解の質と拡張性にアルゴリズムパラメータが与える影響について検討した。
2つの領域の実験では、$\alpha_0$ が $\alpha$ のターゲットよりも小さく、適切な数の原子を用いて良好な近似を得ることが重要である。
関連論文リスト
- Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion [9.792654108885676]
本研究では,長期CVaR基準による無限水平離散時間マルコフ決定過程(MDP)について検討する。
長周期CVaRの差分を2つのポリシーで定量化する擬似CVaR差分式を導出する。
本研究では, CVaRを効率的に最適化するポリシ型アルゴリズムを開発し, 混合ポリシ空間において局所最適に収束することを示す。
論文 参考訳(メタデータ) (2022-10-17T04:29:14Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Risk-Averse No-Regret Learning in Online Convex Games [19.4481913405231]
リスク回避エージェントを備えたオンラインゲームは,コストの大幅な増大のリスクを最小限に抑える最適な決定を学習することを目的としている。
コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、コストの条件付値(CVaR)の計算は困難である。
CVaR値を用いて計算したCVaR勾配の1点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-16T21:36:47Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - Statistical Learning with Conditional Value at Risk [35.4968603057034]
本稿では,予測損失よりも損失の条件付き値付きリスク(CVaR)を用いて,学習アルゴリズムの性能を評価するリスク-逆統計学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-14T00:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。