論文の概要: Sub-sampling for Efficient Non-Parametric Bandit Exploration
- arxiv url: http://arxiv.org/abs/2010.14323v1
- Date: Tue, 27 Oct 2020 14:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:32:35.725449
- Title: Sub-sampling for Efficient Non-Parametric Bandit Exploration
- Title(参考訳): 効率的な非パラメトリック帯域探索のためのサブサンプリング
- Authors: Dorian Baudry (CNRS, CRIStAL, SEQUEL), Emilie Kaufmann (CNRS, CRIStAL,
SEQUEL), Odalric-Ambrym Maillard (SEQUEL)
- Abstract要約: 異なる武器群に対して最適な後悔を同時に達成する再サンプリングに基づく,最初のマルチアームバンディットアルゴリズムを提案する。
各ケースで最適となるように異なる事前を指定する必要があるトンプソンサンプリングとは異なり、我々の提案するRB-SDAは分布依存的なチューニングを一切必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose the first multi-armed bandit algorithm based on
re-sampling that achieves asymptotically optimal regret simultaneously for
different families of arms (namely Bernoulli, Gaussian and Poisson
distributions). Unlike Thompson Sampling which requires to specify a different
prior to be optimal in each case, our proposal RB-SDA does not need any
distribution-dependent tuning. RB-SDA belongs to the family of Sub-sampling
Duelling Algorithms (SDA) which combines the sub-sampling idea first used by
the BESA [1] and SSMC [2] algorithms with different sub-sampling schemes. In
particular, RB-SDA uses Random Block sampling. We perform an experimental study
assessing the flexibility and robustness of this promising novel approach for
exploration in bandit models.
- Abstract(参考訳): 本稿では,異なる武器群(ベルヌーイ分布,ガウス分布,ポアソン分布)に対して漸近的に最適な後悔を同時に達成する再サンプリングに基づく,最初のマルチアームバンディットアルゴリズムを提案する。
各ケースで最適となるように異なる事前を指定する必要があるトンプソンサンプリングとは異なり、我々の提案するRB-SDAは分布依存的なチューニングを必要としない。
RB-SDAは、BESA [1] と SSMC [2] アルゴリズムで最初に使われたサブサンプリングのアイデアを、異なるサブサンプリング方式で組み合わせたサブサンプリングデュエルアルゴリズム(SDA)のファミリーに属している。
特にrb-sdaはランダムブロックサンプリングを用いる。
本研究は,バンディットモデルにおける新たなアプローチの柔軟性とロバスト性を評価する実験研究である。
関連論文リスト
- More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling [41.21199687865359]
最近提案されたFeel-Good Thompson Sampling (FGTS) アプローチを用いて,様々な近似サンプリング手法を組み込んだアルゴリズムフレームワークを提案する。
我々の後悔分析は、既存のランダム化アルゴリズムを超越した次元性への後悔の最もよく知られた依存性をもたらす。
我々のアルゴリズムは、RLの深い文献から得られる他の強いベースラインに匹敵する、あるいは同等の性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T03:32:10Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Batched Thompson Sampling for Multi-Armed Bandits [9.467098519620263]
本稿では,トンプソンサンプリングアルゴリズムを用いて,バッチ環境でのマルチアームバンディットについて検討する。
本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-15T20:47:46Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。