論文の概要: Thompson Sampling Algorithms for Mean-Variance Bandits
- arxiv url: http://arxiv.org/abs/2002.00232v3
- Date: Mon, 3 Aug 2020 13:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:47:04.733305
- Title: Thompson Sampling Algorithms for Mean-Variance Bandits
- Title(参考訳): 平均分散バンドイットに対するトンプソンサンプリングアルゴリズム
- Authors: Qiuyu Zhu and Vincent Y. F. Tan
- Abstract要約: 我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
- 参考スコア(独自算出の注目度): 97.43678751629189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-armed bandit (MAB) problem is a classical learning task that
exemplifies the exploration-exploitation tradeoff. However, standard
formulations do not take into account {\em risk}. In online decision making
systems, risk is a primary concern. In this regard, the mean-variance risk
measure is one of the most common objective functions. Existing algorithms for
mean-variance optimization in the context of MAB problems have unrealistic
assumptions on the reward distributions. We develop Thompson Sampling-style
algorithms for mean-variance MAB and provide comprehensive regret analyses for
Gaussian and Bernoulli bandits with fewer assumptions. Our algorithms achieve
the best known regret bounds for mean-variance MABs and also attain the
information-theoretic bounds in some parameter regimes. Empirical simulations
show that our algorithms significantly outperform existing LCB-based algorithms
for all risk tolerances.
- Abstract(参考訳): マルチアームバンディット(英: multi-armed bandit、MAB)は、探索と探索のトレードオフを示す古典的な学習課題である。
しかし、標準的な定式化はリスクを考慮しない。
オンライン意思決定システムでは、リスクが主な懸念事項である。
この点において、平均分散リスク尺度は最も一般的な目的関数の1つである。
MAB問題の文脈における平均分散最適化のための既存のアルゴリズムは、報酬分布に非現実的な仮定を持つ。
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発し、より少ない仮定でガウスおよびベルヌーイの包括的後悔分析を行う。
我々のアルゴリズムは、平均分散MABに対する最もよく知られた後悔境界を達成し、またパラメータ状態における情報理論境界を達成する。
実験シミュレーションにより、我々のアルゴリズムは既存のLCBベースのアルゴリズムよりはるかに優れており、全てのリスク許容度が高いことが示された。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Thompson Sampling for Gaussian Entropic Risk Bandits [0.0]
リスクは、その普遍的に合意された定義がないため、基本的な報酬の最大化目標を複雑にします。
我々は,このリスク尺度の下でのトンプソンサンプリングに基づくアルゴリズムの性能を,エントロピーリスク尺度 (er) で検討し,検討する。
論文 参考訳(メタデータ) (2021-05-14T17:01:02Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。