論文の概要: Thompson Sampling-like Algorithms for Stochastic Rising Bandits
- arxiv url: http://arxiv.org/abs/2505.12092v2
- Date: Tue, 20 May 2025 15:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.418939
- Title: Thompson Sampling-like Algorithms for Stochastic Rising Bandits
- Title(参考訳): 確率的ライジング帯域に対するトンプソンサンプリング様アルゴリズム
- Authors: Marco Fiandri, Alberto Maria Metelli, Francesco Trovò,
- Abstract要約: レイジング・レステッド・バンディット(Rising rested bandit、SRRB)は、腕が引っ張られるにつれて、期待される報酬が増加する舞台である。
この研究は、SRRBにおけるそのようなアルゴリズムに対する新たな後悔の分析を提供し、課題を強調し、独立した技術ツールを提供する。
- 参考スコア(独自算出の注目度): 20.143361197609934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic rising rested bandit (SRRB) is a setting where the arms' expected rewards increase as they are pulled. It models scenarios in which the performances of the different options grow as an effect of an underlying learning process (e.g., online model selection). Even if the bandit literature provides specifically crafted algorithms based on upper-confidence bounds for such a setting, no study about Thompson sampling TS-like algorithms has been performed so far. The strong regularity of the expected rewards in the SRRB setting suggests that specific instances may be tackled effectively using adapted and sliding-window TS approaches. This work provides novel regret analyses for such algorithms in SRRBs, highlighting the challenges and providing new technical tools of independent interest. Our results allow us to identify under which assumptions TS-like algorithms succeed in achieving sublinear regret and which properties of the environment govern the complexity of the regret minimization problem when approached with TS. Furthermore, we provide a regret lower bound based on a complexity index we introduce. Finally, we conduct numerical simulations comparing TS-like algorithms with state-of-the-art approaches for SRRBs in synthetic and real-world settings.
- Abstract(参考訳): ストカスティック・ライジング・レステッド・バンディット(SRRB)は、腕が引っ張られるにつれて、期待される報酬が増加する場所である。
さまざまな選択肢のパフォーマンスが、基礎となる学習プロセス(オンラインモデル選択など)の効果として成長するシナリオをモデル化する。
バンディットの文献がそのような設定に対する上限値に基づく具体的なアルゴリズムを提供しても、トンプソンサンプリングTSライクなアルゴリズムについての研究は行われていない。
SRRB設定における期待される報酬の強い正則性は、特定のインスタンスを適応およびスライドウインドウTSアプローチを用いて効果的に取り組めることを示唆している。
この研究は、SRRBにおけるそのようなアルゴリズムに対する新たな後悔の分析を提供し、課題を強調し、独立した技術ツールを提供する。
この結果から,TS型アルゴリズムがサブ線形後悔を達成できた場合の仮定と,TSにアプローチした場合の後悔最小化問題の複雑性を環境特性が支配している場合の仮定を同定することができた。
さらに、私たちは、導入した複雑性指標に基づいて、後悔の少ない境界を提供します。
最後に,合成および実世界の環境でのSRRBに対するTSライクなアルゴリズムと最先端のアプローチを比較した数値シミュレーションを行う。
関連論文リスト
- State-Separated SARSA: A Practical Sequential Decision-Making Algorithm with Recovering Rewards [18.0878149546412]
本論文は,前回腕を抜いた時から経過したラウンド数に依存する包帯の回復設定について考察する。
本稿では, ラウンドを状態として扱う状態分離SARSA(State-Separate SARSA)アルゴリズムという, この設定に適した新しい強化学習法を提案する。
論文 参考訳(メタデータ) (2024-03-18T07:14:21Z) - TS-RSR: A provably efficient approach for batch bayesian optimization [4.622871908358325]
本稿では,Phompson Smpling-Regret to Sigma Ratio Direct sampleという,バッチベイズ最適化(BO)の新しい手法を提案する。
我々のサンプリング目的は、各バッチで選択されたアクションを、ポイント間の冗長性を最小化する方法で調整することができる。
提案手法は, 難解な合成および現実的なテスト機能において, 最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-03-07T18:58:26Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Batched Thompson Sampling for Multi-Armed Bandits [9.467098519620263]
本稿では,トンプソンサンプリングアルゴリズムを用いて,バッチ環境でのマルチアームバンディットについて検討する。
本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-15T20:47:46Z) - Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for
Non-Stationary Bandits [2.879036956042183]
我々は,非定常マルチアーム・バンディット(MAB)フレームワークを考察し,コルモゴロフ・スミルノフ(KS)テストに基づくトンプソンサンプリング(TS-KS)アルゴリズムを提案する。
特に、両腕のバンディットの場合、報奨分布のサンプル数に基づいて境界を導出し、一度変化が生じたときにその変化を検出する。
その結果,TS-KSアルゴリズムは静的TSアルゴリズムよりも優れた性能を示し,非定常環境向けに設計された他の帯域幅アルゴリズムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-05-30T17:28:41Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。