論文の概要: A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits
- arxiv url: http://arxiv.org/abs/2108.11345v1
- Date: Wed, 25 Aug 2021 17:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 14:26:44.032399
- Title: A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits
- Title(参考訳): 連続リスク逆帯域におけるトンプソンサンプリングの統一理論
- Authors: Joel Q. L. Chang, Vincent Y. F. Tan
- Abstract要約: 本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper unifies the design and simplifies the analysis of risk-averse
Thompson sampling algorithms for the multi-armed bandit problem for a generic
class of risk functionals \r{ho} that are continuous. Using the contraction
principle in the theory of large deviations, we prove novel concentration
bounds for these continuous risk functionals. In contrast to existing works in
which the bounds depend on the samples themselves, our bounds only depend on
the number of samples. This allows us to sidestep significant analytical
challenges and unify existing proofs of the regret bounds of existing Thompson
sampling-based algorithms. We show that a wide class of risk functionals as
well as "nice" functions of them satisfy the continuity condition. Using our
newly developed analytical toolkits, we analyse the algorithms $\rho$-MTS (for
multinomial distributions) and $\rho$-NPTS (for bounded distributions) and
prove that they admit asymptotically optimal regret bounds of risk-averse
algorithms under the mean-variance, CVaR, and other ubiquitous risk measures,
as well as a host of newly synthesized risk measures. Numerical simulations
show that our bounds are reasonably tight vis-\`a-vis algorithm-independent
lower bounds.
- Abstract(参考訳): 本稿では、連続なリスク汎関数の一般クラスであるリスク汎関数の多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの設計と解析を単純化する。
大偏差理論における縮約原理を用いて,これらの連続的リスク汎関数に対する新しい濃度境界を証明した。
境界がサンプル自身に依存する既存の作品とは対照的に、我々の境界はサンプルの数のみに依存する。
これにより、重要な解析的課題をサイドステップし、既存のトンプソンサンプリングベースのアルゴリズムの後悔境界の既存の証明を統一することができる。
リスク汎関数の幅広いクラスとそれらの"nice"関数が連続性条件を満たすことを示す。
新たに開発した分析ツールキットを用いて,アルゴリズムを$\rho$-MTS(多項分布)および$\rho$-NPTS(有界分布)で解析し,平均分散,CVaR,その他のユビキタスリスク対策の下で,漸近的に最適なリスク回避アルゴリズムの残差が認められたこと,および新たに合成されたリスク対策のホストであることを証明する。
数値シミュレーションにより、我々の境界はvis-\`a-visアルゴリズム非依存な下界であることが示される。
関連論文リスト
- A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms [14.33758865948252]
我々は2つの有名なバンディットアルゴリズム、Minimum Empirical Divergence (MED)とThompson Sampling (TS)を再検討する。
MEDがこれらのモデルすべてに最適であることを示すとともに、最適性がすでに知られているTSアルゴリズムの簡単な後悔解析も提供する。
論文 参考訳(メタデータ) (2023-03-10T16:43:48Z) - High dimensional stochastic linear contextual bandit with missing
covariates [19.989315104929354]
バンドイット問題における最近の研究は、逐次決定設定においてラッソ収束理論を採用した。
1) 条件付き準ガウス雑音下での制限された固有値条件を証明すること、2) 文脈変数と選択された行動の間の依存を考慮に入れること。
論文 参考訳(メタデータ) (2022-07-22T16:06:22Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。