論文の概要: A Practical Algorithm for Feature-Rich, Non-Stationary Bandit Problems
- arxiv url: http://arxiv.org/abs/2603.16755v1
- Date: Tue, 17 Mar 2026 16:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.41959
- Title: A Practical Algorithm for Feature-Rich, Non-Stationary Bandit Problems
- Title(参考訳): 非定常帯域問題に対する実用的アルゴリズム
- Authors: Wei Min Loh, Sajib Kumer Sinha, Ankur Agarwal, Pascal Poupart,
- Abstract要約: 本研究では,Bernoulli bandits に対する条件結合型文脈型 C3 Thompson サンプリングを提案する。
改良されたNadaraya-Watson推定器を埋め込みスペースに組み込むと、Thompsonのサンプリングが組み合わされ、オンラインの学習を再訓練せずに行える。
実験の結果、C3は平均的な累積後悔を5.7%減らして次の最良のアルゴリズムより優れていた。
- 参考スコア(独自算出の注目度): 14.087225799192526
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contextual bandits are incredibly useful in many practical problems. We go one step further by devising a more realistic problem that combines: (1) contextual bandits with dense arm features, (2) non-linear reward functions, and (3) a generalization of correlated bandits where reward distributions change over time but the degree of correlation maintains. This formulation lends itself to a wider set of applications such as recommendation tasks. To solve this problem, we introduce conditionally coupled contextual C3 Thompson sampling for Bernoulli bandits. It combines an improved Nadaraya-Watson estimator on an embedding space with Thompson sampling that allows online learning without retraining. Empirical results show that C3 outperforms the next best algorithm by 5.7% lower average cumulative regret on four OpenML tabular datasets as well as demonstrating a 12.4% click lift on Microsoft News Dataset (MIND) compared to other algorithms.
- Abstract(参考訳): 文脈的包帯は多くの実践的な問題で驚くほど有用である。
より現実的な問題として,(1)密な腕の特徴を持つコンテキスト的帯域幅,(2)非線形報酬関数,(3)報酬分布が時間とともに変化するが相関の度合いが維持される相関帯域幅の一般化を考案し,さらに一歩進める。
この定式化は、レコメンデーションタスクのような、より広い範囲のアプリケーションに役立てる。
この問題を解決するために,Bernoulli bandits に対して条件結合型コンテキスト型 C3 Thompson サンプリングを導入する。
改良されたNadaraya-Watson推定器を埋め込みスペースに組み込むと、Thompsonのサンプリングが組み合わされ、オンラインの学習を再訓練せずに行える。
実証的な結果によると、C3は4つのOpenMLのグラフデータセットで平均累積後悔率を5.7%低下させ、Microsoft News Dataset(MIND)で12.4%のクリックアップを示した。
関連論文リスト
- Rising Rested Bandits: Lower Bounds and Efficient Algorithms [15.390680055166769]
本論文は、連続マルチアーマッドバンド(MAB)の分野である。
我々は,腕の期待される報酬が単調に非減少性であり,結束する残留包帯の特定の症例について検討した。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2024-11-06T22:00:46Z) - Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Thompson Exploration with Best Challenger Rule in Best Arm Identification [59.02170783023547]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Thompson Sampling on Asymmetric $\alpha$-Stable Bandits [0.0]
多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。
トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
論文 参考訳(メタデータ) (2022-03-19T01:55:08Z) - Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文 参考訳(メタデータ) (2021-06-15T14:40:34Z) - An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic
Gradient Descent and Thompson Sampling [83.48992319018147]
プレイヤーが過去の観測結果に基づいて逐次意思決定を行い、累積報酬を最大化する文脈的帯域幅問題を考える。
この問題を解決する自然な方法は、ステップごとの時間とメモリの複雑さを一定に抑えるために、オンライン勾配降下(SGD)を適用することである。
本研究では,オンラインSGDが一般化線形帯域問題に適用可能であることを示す。
過去の情報を活用するためにシングルステップのSGD更新を利用するSGD-TSアルゴリズムは、全時間複雑度で$tildeO(sqrtT)$ regretを達成する。
論文 参考訳(メタデータ) (2020-06-07T01:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。