論文の概要: Fast Online Learning with Gaussian Prior-Driven Hierarchical Unimodal Thompson Sampling
- arxiv url: http://arxiv.org/abs/2602.15972v1
- Date: Tue, 17 Feb 2026 19:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.42188
- Title: Fast Online Learning with Gaussian Prior-Driven Hierarchical Unimodal Thompson Sampling
- Title(参考訳): ガウス的事前駆動型階層型一様トンプソンサンプリングによる高速オンライン学習
- Authors: Tianchi Zhao, He Liu, Hongyin Shi, Jinliang Li,
- Abstract要約: 本稿では,ガウスの報酬フィードバックを持つアームをクラスタ化するマルチアーマッド・バンドイット(MAB)問題について検討する。
このようなアーム設定は、例えば、mWave通信やリスク資産によるポートフォリオ管理など、現実世界の多くの問題におけるアプリケーションを見つける。
- 参考スコア(独自算出の注目度): 8.624069523932372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a type of Multi-Armed Bandit (MAB) problems in which arms with a Gaussian reward feedback are clustered. Such an arm setting finds applications in many real-world problems, for example, mmWave communications and portfolio management with risky assets, as a result of the universality of the Gaussian distribution. Based on the Thompson Sampling algorithm with Gaussian prior (TSG) algorithm for the selection of the optimal arm, we propose our Thompson Sampling with Clustered arms under Gaussian prior (TSCG) specific to the 2-level hierarchical structure. We prove that by utilizing the 2-level structure, we can achieve a lower regret bound than we do with ordinary TSG. In addition, when the reward is Unimodal, we can reach an even lower bound on the regret by our Unimodal Thompson Sampling algorithm with Clustered Arms under Gaussian prior (UTSCG). Each of our proposed algorithms are accompanied by theoretical evaluation of the upper regret bound, and our numerical experiments confirm the advantage of our proposed algorithms.
- Abstract(参考訳): 本稿では,ガウスの報酬フィードバックを持つアームをクラスタ化するマルチアーマッド・バンドイット(MAB)問題について検討する。
このようなアーム設定は、ガウス分布の普遍性の結果、例えば、危険資産によるmmWave通信やポートフォリオ管理など、現実世界の多くの問題における応用を見出す。
最適アーム選択のためのガウス先行(TSG)アルゴリズムを用いたトンプソンサンプリングアルゴリズムに基づいて、2階層構造に特有のガウス先行(TSCG)の下でクラスタ化されたアームを用いたトンプソンサンプリングを提案する。
2レベル構造を利用することで、通常のTSGよりも低い後悔の限界を達成できることを実証する。
さらに、報酬がユニモーダルである場合、ガウス先行法(UTSCG)の下でクラスタ化されたアームを用いたユニモーダルトンプソンサンプリングアルゴリズムにより、後悔にさらに低い限界に達することができる。
提案アルゴリズムのそれぞれに,上側後悔境界の理論的評価を伴い,提案アルゴリズムの利点を数値実験により検証した。
関連論文リスト
- Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Bayesian Analysis of Combinatorial Gaussian Process Bandits [6.594362025904486]
GP-UCB, GP-BayesUCB, GP-TSの3つのアルゴリズムに対して, 新たな累積後悔境界を提供する。
我々は,オンラインエネルギー効率ナビゲーションの課題に対処するために,我々のフレームワークを使用している。
論文 参考訳(メタデータ) (2023-12-20T00:31:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。
我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文 参考訳(メタデータ) (2021-09-06T08:58:01Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文 参考訳(メタデータ) (2021-06-15T14:40:34Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。