論文の概要: A unified algorithm framework for mean-variance optimization in
discounted Markov decision processes
- arxiv url: http://arxiv.org/abs/2201.05737v1
- Date: Sat, 15 Jan 2022 02:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 17:07:48.094443
- Title: A unified algorithm framework for mean-variance optimization in
discounted Markov decision processes
- Title(参考訳): 割引マルコフ決定過程における平均分散最適化のための統一アルゴリズムフレームワーク
- Authors: Shuai Ma, Xiaoteng Ma, and Li Xia
- Abstract要約: 本稿では,無限水平割引マルコフ決定過程(MDP)におけるリスク-逆平均分散最適化について検討する。
本稿では,処理不能なMPPを標準形式で再定義された報酬関数を持つ標準形式に変換するための擬似平均を導入する。
平均分散最適化のための2レベル最適化構造を持つ統合アルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.510742715895749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the risk-averse mean-variance optimization in
infinite-horizon discounted Markov decision processes (MDPs). The involved
variance metric concerns reward variability during the whole process, and
future deviations are discounted to their present values. This discounted
mean-variance optimization yields a reward function dependent on a discounted
mean, and this dependency renders traditional dynamic programming methods
inapplicable since it suppresses a crucial property -- time consistency. To
deal with this unorthodox problem, we introduce a pseudo mean to transform the
untreatable MDP to a standard one with a redefined reward function in standard
form and derive a discounted mean-variance performance difference formula. With
the pseudo mean, we propose a unified algorithm framework with a bilevel
optimization structure for the discounted mean-variance optimization. The
framework unifies a variety of algorithms for several variance-related problems
including, but not limited to, risk-averse variance and mean-variance
optimizations in discounted and average MDPs. Furthermore, the convergence
analyses missing from the literature can be complemented with the proposed
framework as well. Taking the value iteration as an example, we develop a
discounted mean-variance value iteration algorithm and prove its convergence to
a local optimum with the aid of a Bellman local-optimality equation. Finally,
we conduct a numerical experiment on portfolio management to validate the
proposed algorithm.
- Abstract(参考訳): 本稿では,無限水平割引マルコフ決定過程(MDP)におけるリスク-逆平均分散最適化について検討する。
関連する分散計量は、プロセス全体における報酬の変動を懸念し、将来の偏差は現在の値に割引される。
この割引平均分散最適化は、割引平均に依存する報酬関数をもたらし、この依存関係は、重要な特性である時間一貫性を抑えるため、従来の動的プログラミングメソッドを適用不可能にする。
この非正則問題に対処するために,我々は,処理不能なmdpを標準形式に再定義された報酬関数で標準に変換する擬似平均を導入し,ディスカウントされた平均分散性能差式を導出する。
擬似平均を用いて、割引平均分散最適化のための二段階最適化構造を持つ統一アルゴリズムフレームワークを提案する。
このフレームワークは、リスク-逆分散と平均的MDPにおける平均分散最適化を含む、いくつかの分散関連問題に対する様々なアルゴリズムを統一する。
さらに,文献から欠落した収束解析も提案手法を補完することができる。
値反復を例として、割引平均分散値反復アルゴリズムを開発し、ベルマン局所最適方程式の助けを借りて局所最適への収束を証明した。
最後に,提案手法を検証するためにポートフォリオ管理に関する数値実験を行った。
関連論文リスト
- Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints [10.564071872770146]
離散メモリレスソースに対するRDPF(Ralse-Distortion-Perception Function)の計算について検討した。
最適パラメトリック解を特徴付ける。
歪みと知覚制約について十分な条件を提供する。
論文 参考訳(メタデータ) (2024-08-27T12:50:12Z) - Contextual Optimization under Covariate Shift: A Robust Approach by Intersecting Wasserstein Balls [18.047245099229325]
2つのワッサーシュタイン球の交叉によって設定されたあいまいさを利用する分布的ロバストなアプローチを提案する。
提案したモデルの強烈な経験的性能を実証する。
論文 参考訳(メタデータ) (2024-06-04T15:46:41Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Distributionally Robust Bayesian Optimization [121.71766171427433]
そこで本研究では,ゼロ次雑音最適化のための分散ロバストなベイズ最適化アルゴリズム(DRBO)を提案する。
提案アルゴリズムは, 種々の設定において, 線形に頑健な後悔を確実に得る。
提案手法は, 実世界のベンチマークと実世界のベンチマークの両方において, 頑健な性能を示す。
論文 参考訳(メタデータ) (2020-02-20T22:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。