論文の概要: Optimism Stabilizes Thompson Sampling for Adaptive Inference
- arxiv url: http://arxiv.org/abs/2602.06014v1
- Date: Thu, 05 Feb 2026 18:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.138611
- Title: Optimism Stabilizes Thompson Sampling for Adaptive Inference
- Title(参考訳): 適応推論のためのトンプソンサンプリングの最適化
- Authors: Shunxing Yan, Han Zhong,
- Abstract要約: トンプソンサンプリング(TS)は多武装の包帯に広く用いられているが、適応データ収集における推論特性は微妙である。
我々は、この現象を$K$武器のガウス・バンディットで研究し、エンホプティミズムをエンホスタビリティの回復の鍵となるメカニズムとして認識する。
分散膨張型TS citephalder2025stableは、複数のアームが最適である難易度を含む、任意のK ge 2$に対して安定であることを示す。
- 参考スコア(独自算出の注目度): 9.558593674952654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling (TS) is widely used for stochastic multi-armed bandits, yet its inferential properties under adaptive data collection are subtle. Classical asymptotic theory for sample means can fail because arm-specific sample sizes are random and coupled with the rewards through the action-selection rule. We study this phenomenon in the $K$-armed Gaussian bandit and identify \emph{optimism} as a key mechanism for restoring \emph{stability}, a sufficient condition for valid asymptotic inference requiring each arm's pull count to concentrate around a deterministic scale. First, we prove that variance-inflated TS \citep{halder2025stable} is stable for any $K \ge 2$, including the challenging regime where multiple arms are optimal. This resolves the open question raised by \citet{halder2025stable} through extending their results from the two-armed setting to the general $K$-armed setting. Second, we analyze an alternative optimistic modification that keeps the posterior variance unchanged but adds an explicit mean bonus to posterior mean, and establish the same stability conclusion. In summary, suitably implemented optimism stabilizes Thompson sampling and enables asymptotically valid inference in multi-armed bandits, while incurring only a mild additional regret cost.
- Abstract(参考訳): トンプソンサンプリング(TS)は確率的マルチアームバンディットに広く用いられているが、適応データ収集における推論特性は微妙である。
サンプルに対する古典的な漸近理論は、腕固有のサンプルサイズがランダムであり、アクション選択規則によって報酬と結合しているため失敗する可能性がある。
我々は、この現象をK$腕ガウスのバンディットで研究し、各腕のプルカウントを決定論的尺度に集中させるのに十分な漸近的推測条件である「emph{stability}」を復元するための重要なメカニズムとして同定する。
まず、分散膨張TS \citep{halder2025stable} が任意の$K \ge 2$に対して安定であることを証明する。
これは、二本腕設定から一般の$K$武器設定まで結果を拡張することで、 \citet{halder2025stable} によって提起された開問題を解決する。
第2に,後部変分を一定に保ちつつも,後部平均値に明示的な平均ボーナスを付加する代替楽観的な修正を解析し,同じ安定性の結論を確立する。
まとめると、最適に実装された楽観主義はトンプソンサンプリングを安定させ、多武装の包帯において漸近的に有効な推論を可能にし、軽度な追加の後悔コストしか生じない。
関連論文リスト
- Thompson sampling: Precise arm-pull dynamics and adaptive inference [0.7614628596146601]
我々は、トンプソン型アルゴリズムの別の標準クラスにおける正確なアームプルダイナミクスについて研究する。
アームパール数が決定論的であることと、アームが最適以下であるか、あるいは一意の最適アームである場合に限り、アームパール数は決定論的であることを示す。
正常化された腕は、安定な腕の制限と不安定な腕の半普遍的非ガウス的制限により、同じ二分法に従うことを意味する。
論文 参考訳(メタデータ) (2026-01-29T00:12:04Z) - Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption [11.41663079285674]
両腕の動的部分集合を2つ維持する新しいアンフツーセットポリシーを提案する。
2組のポリシーは、$O(exp(-C N)$Optimity gap for a $N$-armed problem で最適であることを示す。
論文 参考訳(メタデータ) (2024-05-28T07:08:29Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Thompson Exploration with Best Challenger Rule in Best Arm Identification [59.02170783023547]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Weak Signal Asymptotics for Sequentially Randomized Experiments [2.28438857884398]
マルチアームバンディット問題を解く際に発生するものを含む,逐次ランダム化実験のクラスについて検討する。
一連の逐次ランダム化実験のサンプルパスは拡散限界に弱収束することを示す。
ランダム化確率が観測データに連続的に依存する連続的な実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔に悩まされることを示す。
論文 参考訳(メタデータ) (2021-01-25T02:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。