論文の概要: Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion
- arxiv url: http://arxiv.org/abs/2210.08740v1
- Date: Mon, 17 Oct 2022 04:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:49:46.057647
- Title: Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion
- Title(参考訳): 長期CVaR基準によるリスク感度マルコフ決定過程
- Authors: Li Xia, Peter W. Glynn
- Abstract要約: 本研究では,長期CVaR基準による無限水平離散時間マルコフ決定過程(MDP)について検討する。
長周期CVaRの差分を2つのポリシーで定量化する擬似CVaR差分式を導出する。
本研究では, CVaRを効率的に最適化するポリシ型アルゴリズムを開発し, 混合ポリシ空間において局所最適に収束することを示す。
- 参考スコア(独自算出の注目度): 9.792654108885676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CVaR (Conditional Value at Risk) is a risk metric widely used in finance.
However, dynamically optimizing CVaR is difficult since it is not a standard
Markov decision process (MDP) and the principle of dynamic programming fails.
In this paper, we study the infinite-horizon discrete-time MDP with a long-run
CVaR criterion, from the view of sensitivity-based optimization. By introducing
a pseudo CVaR metric, we derive a CVaR difference formula which quantifies the
difference of long-run CVaR under any two policies. The optimality of
deterministic policies is derived. We obtain a so-called Bellman local
optimality equation for CVaR, which is a necessary and sufficient condition for
local optimal policies and only necessary for global optimal policies. A CVaR
derivative formula is also derived for providing more sensitivity information.
Then we develop a policy iteration type algorithm to efficiently optimize CVaR,
which is shown to converge to local optima in the mixed policy space. We
further discuss some extensions including the mean-CVaR optimization and the
maximization of CVaR. Finally, we conduct numerical experiments relating to
portfolio management to demonstrate the main results. Our work may shed light
on dynamically optimizing CVaR from a sensitivity viewpoint.
- Abstract(参考訳): CVaR(Conditional Value at Risk)は、金融において広く用いられるリスク指標である。
しかし、CVaRを動的に最適化することは、標準的なマルコフ決定プロセス(MDP)ではないため困難であり、動的プログラミングの原理は失敗する。
本稿では、感度に基づく最適化の観点から、長時間のCVaR基準による無限水平離散時間MDPについて検討する。
疑似CVaR測度を導入することにより、長周期CVaRの差分を2つのポリシーで定量化するCVaR差分式を導出する。
決定論的政策の最適性は導かれる。
CVaR のベルマン局所最適性方程式は,局所最適政策に必要な条件であり,大域的最適政策にのみ必要な条件である。
より感度の高い情報を提供するためにCVaR誘導体式も導出される。
次に,混合ポリシー空間における局所オプティマに収束するcvarを効率的に最適化するポリシ反復型アルゴリズムを開発した。
さらに,平均CVaR最適化やCVaRの最大化など,いくつかの拡張についても論じる。
最後に,ポートフォリオ管理に関する数値実験を行い,その主な成果を示す。
我々の研究は、感度の観点からcvarの動的最適化に光を当てるかもしれない。
関連論文リスト
- Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Forward-PECVaR Algorithm: Exact Evaluation for CVaR SSPs [1.347733333991357]
Conditional Value at Risk (CVaR)は、任意のレベルのリスクをモデリングできる基準である。
非一様コストでCVaR-SSPの定常ポリシーを正確に評価するアルゴリズムであるForward-PECVaRを提案する。
論文 参考訳(メタデータ) (2023-03-01T17:10:22Z) - Lexicographic Optimisation of Conditional Value at Risk and Expected
Value for Risk-Averse Planning in MDPs [4.87191262649216]
マルコフ決定プロセス(MDP)の計画は通常、期待されるコストを最適化する。
もう1つのアプローチは、リスクの条件値(CVaR)のようなリスク-逆の目的を最適化するポリシーを見つけることである。
我々は,総コストのCVaRが最適であるという制約の下で,期待されるコストを最小限に抑えるための語彙最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-10-25T09:16:50Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。