論文の概要: Adaptive Data Augmentation for Thompson Sampling
- arxiv url: http://arxiv.org/abs/2506.14479v1
- Date: Tue, 17 Jun 2025 12:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.475814
- Title: Adaptive Data Augmentation for Thompson Sampling
- Title(参考訳): トンプソンサンプリングのための適応データ拡張
- Authors: Wonyoung Kim,
- Abstract要約: 線形文脈的包帯において、その目的は累積報酬を最大化する行動を選択することである。
トンプソンサンプリングは経験的にうまく機能するが、最適の後悔境界は達成しない。
本稿では,線形文脈帯域に対するほぼ最小のトンプソンサンプリングを提案する。
- 参考スコア(独自算出の注目度): 4.441866681085518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In linear contextual bandits, the objective is to select actions that maximize cumulative rewards, modeled as a linear function with unknown parameters. Although Thompson Sampling performs well empirically, it does not achieve optimal regret bounds. This paper proposes a nearly minimax optimal Thompson Sampling for linear contextual bandits by developing a novel estimator with the adaptive augmentation and coupling of the hypothetical samples that are designed for efficient parameter learning. The proposed estimator accurately predicts rewards for all arms without relying on assumptions for the context distribution. Empirical results show robust performance and significant improvement over existing methods.
- Abstract(参考訳): 線形文脈帯域において、目的は、未知のパラメータを持つ線形関数としてモデル化された累積報酬を最大化する行動を選択することである。
トンプソンサンプリングは経験的にうまく機能するが、最適の後悔境界は達成しない。
本稿では, パラメータ学習の効率化を目的とした仮説標本の適応的拡張と結合を考慮した新しい推定器を開発することにより, 線形文脈帯域に対するほぼ最小のトンプソンサンプリングを提案する。
提案した推定器は、文脈分布の仮定に頼ることなく、すべてのアームに対する報酬を正確に予測する。
実証的な結果は、既存の手法よりも堅牢な性能と大幅な改善を示している。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings [11.008537121214104]
線形トンプソンサンプリングバンドイットを状態作用ユーティリティ関数に基づいた選択動作に拡張する。
提案手法は, トータルリターンの観点から, 標準トンプソンサンプリングを著しく上回り得ることを示す。
論文 参考訳(メタデータ) (2024-11-30T01:27:44Z) - TS-RSR: A provably efficient approach for batch Bayesian Optimization [4.622871908358325]
本稿では,Phompson Smpling-Regret to Sigma Ratio Direct sampleという,バッチベイズ最適化(BO)の新しい手法を提案する。
我々のサンプリング目的は、各バッチで選択されたアクションを、ポイント間の冗長性を最小化する方法で調整することができる。
提案手法は, 難解な合成および現実的なテスト機能において, 最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-03-07T18:58:26Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - Odds-Ratio Thompson Sampling to Control for Time-Varying Effect [7.547547344228166]
マルチアームバンディット法は、特にオンラインサービスにおける動的実験に用いられている。
バイナリ報酬のための多くのトンプソンサンプリング方法は、特定のパラメータ化で書かれたロジスティックモデルを使用する。
そこで本研究では,時間変化の影響に対して頑健に機能することが期待される新しい手法"Odds-ratio thonmpson sample"を提案する。
論文 参考訳(メタデータ) (2020-03-04T05:48:21Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。