論文の概要: Sharpe Ratio Optimization in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2509.00793v1
- Date: Sun, 31 Aug 2025 10:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.397457
- Title: Sharpe Ratio Optimization in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるシャープ比最適化
- Authors: Shuai Ma, Guangwu Liu, Li Xia,
- Abstract要約: 無限水平マルコフ決定過程(MDP)におけるシャープ比の最適化について検討する。
ひとつは、動的プログラミングは少数の目的のために機能しない、もうひとつは、動的プログラミングはリスクメトリクスに対して無効である、ということです。
このようなシャープ比の列は単調に増加し、最適シャープ比に収束することを示す。
- 参考スコア(独自算出の注目度): 8.710578202309106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharpe ratio (also known as reward-to-variability ratio) is a widely-used metric in finance, which measures the additional return at the cost of per unit of increased risk (standard deviation of return). However, the optimization of Sharpe ratio in Markov decision processes (MDPs) is challenging, because there exist two difficulties hindering the application of dynamic programming. One is that dynamic programming does not work for fractional objectives, and the other is that dynamic programming is invalid for risk metrics. In this paper, we study the Sharpe ratio optimization in infinite-horizon MDPs, considering both the long-run average and discounted settings. We address the first challenge with the Dinkelbachs transform, which converts the Sharpe ratio objective to a mean-squared-variance (M2V) objective. It is shown that the M2V optimization and the original Sharpe ratio optimization share the same optimal policy when the risk-sensitive parameter is equal to the optimal Sharpe ratio. For the second challenge, we develop an iterative algorithm to solve the M2V optimization which is similar to a mean-variance optimization in MDPs. We iteratively solve the M2V problem and obtain the associated Sharpe ratio that is used to update the risk-sensitive parameter in the next iteration of M2V problems. We show that such a sequence of Sharpe ratios derived is monotonically increasing and converges to the optimal Sharpe ratio. For both average and discounted MDP settings, we develop a policy iteration procedure and prove its convergence to the optimum. Numerical experiments are conducted for validation. To the best of our knowledge, our approach is the first that solves the Sharpe ratio optimization in MDPs with dynamic programming type algorithms. We believe that the proposed algorithm can shed light on solving MDPs with other fractional objectives.
- Abstract(参考訳): シャープ比(シャープ比、英: Sharpe ratio、英: reward-to-variability ratio、英: Sharpe ratio、英: reward-to-variability ratio、英: Sharpe ratio、英: Sharpe ratio)は、金融において広く使われている計量であり、リスクの増加(リターンの標準偏差)の単位当たりのコストで追加のリターンを測定する。
しかし、動的プログラミングの適用を妨げる2つの困難があるため、マルコフ決定過程(MDP)におけるシャープ比の最適化は困難である。
ひとつは、動的プログラミングは少数の目的のために機能しない、もうひとつは、動的プログラミングはリスクメトリクスに対して無効である、ということです。
本稿では,長期平均設定と割引設定の両方を考慮して,無限水平MDPにおけるシャープ比の最適化について検討する。
我々は、シャープ比の目的を平均二乗分散(M2V)目標に変換するディンケルバッハ変換(Dinkelbachs transform)の最初の課題に対処する。
リスク感受性パラメータが最適シャープ比と等しい場合、M2V最適化と元のシャープ比最適化は、同じ最適ポリシーを共有する。
第2の課題として,MDPにおける平均分散最適化に類似したM2V最適化を反復的に解くアルゴリズムを開発する。
我々は、M2V問題を反復的に解き、M2V問題の次回におけるリスク感受性パラメータの更新に使用されるシャープ比を求める。
このようなシャープ比の列は単調に増加し、最適シャープ比に収束することを示す。
平均値と割引値の両方のMDP設定に対して、ポリシー反復手順を開発し、その収束性を最適に証明する。
検証のための数値実験を行う。
我々の知る限り、我々の手法は動的プログラミング型アルゴリズムを用いてMDPにおけるシャープ比の最適化を初めて解くものである。
提案アルゴリズムは他の分数目的のMDPを解くことに光を当てることができると考えている。
関連論文リスト
- A Gradient Meta-Learning Joint Optimization for Beamforming and Antenna Position in Pinching-Antenna Systems [63.213207442368294]
マルチ導波路ピンチアンテナシステムの新しい最適化設計について検討する。
提案したGML-JOアルゴリズムは,既存の最適化手法と比較して,様々な選択や性能に頑健である。
論文 参考訳(メタデータ) (2025-06-14T17:35:27Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。
我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。
我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-02T19:51:55Z) - Robust Multi-Objective Bayesian Optimization Under Input Noise [27.603887040015888]
多くの製造プロセスにおいて、設計パラメータはランダムな入力ノイズを受けており、結果として製品は期待よりも性能が低い。
本研究では,入力雑音に頑健な最初の多目的BO法を提案する。
論文 参考訳(メタデータ) (2022-02-15T16:33:48Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。