論文の概要: Meta-Thompson Sampling
- arxiv url: http://arxiv.org/abs/2102.06129v1
- Date: Thu, 11 Feb 2021 17:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:21:38.907823
- Title: Meta-Thompson Sampling
- Title(参考訳): メタトロンプソンサンプリング
- Authors: Branislav Kveton, Mikhail Konobeev, Manzil Zaheer, Chih-wei Hsu,
Martin Mladenov, Craig Boutilier, and Csaba Szepesvari
- Abstract要約: 本稿では、未知の事前分布から引き出された問題インスタンスと相互作用し、よりよく探索することを学ぶトンプソンサンプリングの変種を提案する。
我々のアルゴリズムは前者をメタ学習し、メタTSと呼ぶ。
- 参考スコア(独自算出の注目度): 35.98471817519713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration in multi-armed bandits is a fundamental online learning
problem. In this work, we propose a variant of Thompson sampling that learns to
explore better as it interacts with problem instances drawn from an unknown
prior distribution. Our algorithm meta-learns the prior and thus we call it
Meta-TS. We propose efficient implementations of Meta-TS and analyze it in
Gaussian bandits. Our analysis shows the benefit of meta-learning the prior and
is of a broader interest, because we derive the first prior-dependent upper
bound on the Bayes regret of Thompson sampling. This result is complemented by
empirical evaluation, which shows that Meta-TS quickly adapts to the unknown
prior.
- Abstract(参考訳): マルチアームバンディットの効率的な探索は、基本的なオンライン学習問題です。
本研究では,未知の事前分布から引き出された問題インスタンスと対話することで,より深く探索することを学ぶ,トンプソンサンプリングの変種を提案する。
アルゴリズムは事前学習を行い、Meta-TSと呼びます。
Meta-TSの効率的な実装を提案し、ガウス帯で分析します。
我々の分析は,トンプソンサンプリングを後悔するベイズ層の最初の事前依存上界を導出するため,事前およびより幅広い興味を持つメタラーニングの利点を示している。
この結果は、Meta-TSが未知の先行に迅速に適応することを示す経験的評価によって補完される。
関連論文リスト
- Modified Meta-Thompson Sampling for Linear Bandits and Its Bayes Regret Analysis [11.708969865308596]
本稿では,リニアコンテキスト帯域に対するMeta-TSを改良したMeta-TSLBアルゴリズムを提案する。
理論的にはMeta-TSLBを解析し、$O((m+log(m))sqrtnlog(n))$をベイズ後悔に縛り付ける。
そこで我々は,Meta-TSLBの一般化能力の実験と解析を行い,未知のインスタンスに適応する可能性を示した。
論文 参考訳(メタデータ) (2024-09-10T08:34:55Z) - Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。
BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。
リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z) - Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Optimality of Thompson Sampling with Noninformative Priors for Pareto
Bandits [81.45853204922795]
トンプソンサンプリングは、いくつかの報酬モデルにおいて問題依存の低い境界を達成することが示されている。
重い尾を持つパレートモデルに対するTSの最適性は、2つの未知のパラメータによってパラメータ化される。
ジェフリーズおよび参照先行値を持つTSは、トラルニケート手順を使用すると、下界を達成できる。
論文 参考訳(メタデータ) (2023-02-03T04:47:14Z) - Thompson Sampling with Diffusion Generative Prior [20.69774298882897]
本稿では,基礎となるタスク分布を学習し,トンプソンサンプリングと学習したタスクを組み合わせて,新しいタスクをテスト時に処理する拡散モデルを提案する。
本アルゴリズムは,学習者の環境との相互作用から生じる雑音と,学習前の環境とのバランスを慎重に行うように設計されている。
また,現実的なバンディットシナリオを捉えるために,不完全および/またはノイズの多いデータからトレーニングを行う新しい拡散モデルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-01-12T18:05:59Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Covariate Distribution Aware Meta-learning [3.494950334697974]
本稿では,有意義な緩和を導入することで,計算可能なメタ学習アルゴリズムを提案する。
一般的な分類ベンチマークに基づいて,ブートストラップによるメタラーニングベースラインに対するアルゴリズムの優位性を実証する。
論文 参考訳(メタデータ) (2020-07-06T05:00:13Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。