論文の概要: Order Optimal Regret Bounds for Sharpe Ratio Optimization in the Bandit Setting
- arxiv url: http://arxiv.org/abs/2508.13749v1
- Date: Tue, 19 Aug 2025 11:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.904218
- Title: Order Optimal Regret Bounds for Sharpe Ratio Optimization in the Bandit Setting
- Title(参考訳): 帯域設定におけるシャープ比最適化のための順序最適レギュレット境界
- Authors: Mohammad Taha Shah, Sabrina Khurshid, Gourab Ghatak,
- Abstract要約: バンディット設定におけるシャープ比(SR)の逐次決定問題について検討する。
我々の理論的貢献にはシャープ比のために特別に設計された新しい後悔の分解が含まれる。
以上の結果から,トンプソンの対数的後悔は時間とともに達成され,リスク調整による腕の識別の難しさを把握できる分布依存因子が得られた。
- 参考スコア(独自算出の注目度): 3.5502600490147196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the problem of sequential decision-making for Sharpe ratio (SR) maximization in a stochastic bandit setting. We focus on the Thompson Sampling (TS) algorithm, a Bayesian approach celebrated for its empirical performance and exploration efficiency, under the assumption of Gaussian rewards with unknown parameters. Unlike conventional bandit objectives focusing on maximizing cumulative reward, Sharpe ratio optimization instead introduces an inherent tradeoff between achieving high returns and controlling risk, demanding careful exploration of both mean and variance. Our theoretical contributions include a novel regret decomposition specifically designed for the Sharpe ratio, highlighting the role of information acquisition about the reward distribution in driving learning efficiency. Then, we establish fundamental performance limits for the proposed algorithm \texttt{SRTS} in terms of an upper bound on regret. We also derive the matching lower bound and show the order-optimality. Our results show that Thompson Sampling achieves logarithmic regret over time, with distribution-dependent factors capturing the difficulty of distinguishing arms based on risk-adjusted performance. Empirical simulations show that our algorithm significantly outperforms existing algorithms.
- Abstract(参考訳): 本稿では,確率的バンディット設定におけるシャープ比(SR)最大化の逐次決定問題について検討する。
我々は、未知のパラメータを持つガウス報酬を仮定して、その経験的性能と探索効率で評価されたベイズ的アプローチであるトンプソンサンプリング(TS)アルゴリズムに焦点を当てた。
累積報酬の最大化に焦点を当てた従来のバンドイットの目標とは異なり、シャープ比の最適化は代わりに、高いリターンを達成することとリスクを制御することの間の固有のトレードオフを導入し、平均と分散の両方を慎重に探究する必要がある。
我々の理論的貢献には、シャープ比に特化して設計された新しい後悔の分解が含まれており、学習効率向上における報奨分布に関する情報獲得の役割を強調している。
そこで我々は,提案アルゴリズムであるtexttt{SRTS} の基本性能限界を,後悔の上限として設定する。
また、一致した下界を導出し、順序-最適性を示す。
以上の結果から,トンプソンサンプリングは,リスク調整性能に基づく腕の識別の難しさを捉えた分布依存因子を用いて,時間とともに対数的後悔を達成できることが示唆された。
実験シミュレーションにより,我々のアルゴリズムは既存のアルゴリズムよりも大幅に優れていることが示された。
関連論文リスト
- Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - TS-RSR: A provably efficient approach for batch Bayesian Optimization [4.622871908358325]
本稿では,Phompson Smpling-Regret to Sigma Ratio Direct sampleという,バッチベイズ最適化(BO)の新しい手法を提案する。
我々のサンプリング目的は、各バッチで選択されたアクションを、ポイント間の冗長性を最小化する方法で調整することができる。
提案手法は, 難解な合成および現実的なテスト機能において, 最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-03-07T18:58:26Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。