論文の概要: Nonstationary Bandit Learning via Predictive Sampling
- arxiv url: http://arxiv.org/abs/2205.01970v1
- Date: Wed, 4 May 2022 09:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 13:30:37.073061
- Title: Nonstationary Bandit Learning via Predictive Sampling
- Title(参考訳): 予測サンプリングによる非定常帯域学習
- Authors: Yueyang Liu, Benjamin Van Roy, Kuang Xu
- Abstract要約: 本研究では,非定常帯状環境における探索と搾取のバランスをとる行動の選択手法として,予測サンプリングを提案する。
我々の分析はトンプソンサンプリングに対する予測サンプリングの重要な利点を浮き彫りにしている: 予測サンプリングは、取得した情報がすぐに関連しなくなる探索への投資を優先順位付けする。
- 参考スコア(独自算出の注目度): 18.27298359712317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose predictive sampling as an approach to selecting actions that
balance between exploration and exploitation in nonstationary bandit
environments. When specialized to stationary environments, predictive sampling
is equivalent to Thompson sampling. However, predictive sampling is effective
across a range of nonstationary environments in which Thompson sampling
suffers. We establish a general information-theoretic bound on the Bayesian
regret of predictive sampling. We then specialize this bound to study a
modulated Bernoulli bandit environment. Our analysis highlights a key advantage
of predictive sampling over Thompson sampling: predictive sampling
deprioritizes investments in exploration where acquired information will
quickly become less relevant.
- Abstract(参考訳): 本研究では,非定常帯状環境における探索と搾取のバランスをとる行動の選択手法として,予測サンプリングを提案する。
静止環境に特化する場合、予測サンプリングはトンプソンサンプリングと等価である。
しかし、トンプソンサンプリングが苦しむ様々な非定常環境において予測サンプリングが有効である。
予測サンプリングに対するベイズ的後悔に対する一般情報理論的境界を確立する。
次に、この境界を、変調されたベルヌーイ帯域環境の研究に特化させる。
我々の分析はトンプソンサンプリングに対する予測サンプリングの重要な利点を浮き彫りにしている: 予測サンプリングは、取得した情報がすぐに関連しなくなる探索への投資を優先順位付けする。
関連論文リスト
- Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Accounting For Informative Sampling When Learning to Forecast Treatment
Outcomes Over Time [66.08455276899578]
適切な基準を満たさない場合,情報サンプリングは治療結果の正確な推定を禁止できることが示唆された。
逆強度重み付けを用いた情報サンプリングの存在下での処理結果を学習するための一般的な枠組みを提案する。
本稿では,ニューラルCDEを用いてこのフレームワークをインスタンス化する新しい手法であるTESAR-CDEを提案する。
論文 参考訳(メタデータ) (2023-06-07T08:51:06Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - An Analysis of Ensemble Sampling [28.18592417451813]
アンサンブルサンプリングは、モデルパラメータの正確な後部分布を維持する際に、トンプソンサンプリングの実用的な近似として機能する。
線形バンディット問題にアンサンブルサンプリングを適用する際に望ましい振る舞いを確実にするベイズ後悔境界を確立する。
論文 参考訳(メタデータ) (2022-03-02T18:41:22Z) - AutoSampling: Search for Effective Data Sampling Schedules [118.20014773014671]
モデル学習のためのサンプリングスケジュールを自動的に学習するAutoSampling法を提案する。
提案手法の有効性を示す様々な画像分類タスクに本手法を適用した。
論文 参考訳(メタデータ) (2021-05-28T09:39:41Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。