論文の概要: Non-Stationary Bandit Learning via Predictive Sampling
- arxiv url: http://arxiv.org/abs/2205.01970v7
- Date: Thu, 29 Aug 2024 01:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:54:50.076687
- Title: Non-Stationary Bandit Learning via Predictive Sampling
- Title(参考訳): 予測サンプリングによる非定常帯域学習
- Authors: Yueyang Liu, Xu Kuang, Benjamin Van Roy,
- Abstract要約: 非定常環境ではトンプソンサンプリングが不十分であることを示す。
本稿では,有効性を急速に失う情報を優先的に抽出するアルゴリズムである予測サンプリングを提案する。
- 参考スコア(独自算出の注目度): 15.88678122212934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling has proven effective across a wide range of stationary bandit environments. However, as we demonstrate in this paper, it can perform poorly when applied to non-stationary environments. We attribute such failures to the fact that, when exploring, the algorithm does not differentiate actions based on how quickly the information acquired loses its usefulness due to non-stationarity. Building upon this insight, we propose predictive sampling, an algorithm that deprioritizes acquiring information that quickly loses usefulness. A theoretical guarantee on the performance of predictive sampling is established through a Bayesian regret bound. We provide versions of predictive sampling for which computations tractably scale to complex bandit environments of practical interest. Through numerical simulations, we demonstrate that predictive sampling outperforms Thompson sampling in all non-stationary environments examined.
- Abstract(参考訳): トンプソンサンプリングは、様々な定常帯状環境において有効であることが証明されている。
しかし,本論文で示すように,非定常環境に適用しても性能は低下する。
このような失敗は、探索時に、取得した情報が非定常性によってその有用性を失う速さに基づいて、アルゴリズムが動作を区別しないという事実に起因している。
この知見に基づいて,情報取得を優先的に行うアルゴリズムである予測サンプリングを提案する。
ベイズ後悔境界によって予測サンプリングの性能に関する理論的保証が確立される。
そこで本研究では,計算を実利的な複雑な帯域環境に拡張可能な予測サンプリング方式を提案する。
数値シミュレーションにより,非定常環境において,予測サンプリングがトンプソンサンプリングより優れていることを示す。
関連論文リスト
- Which Pretrain Samples to Rehearse when Finetuning Pretrained Models? [60.59376487151964]
特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Accounting For Informative Sampling When Learning to Forecast Treatment
Outcomes Over Time [66.08455276899578]
適切な基準を満たさない場合,情報サンプリングは治療結果の正確な推定を禁止できることが示唆された。
逆強度重み付けを用いた情報サンプリングの存在下での処理結果を学習するための一般的な枠組みを提案する。
本稿では,ニューラルCDEを用いてこのフレームワークをインスタンス化する新しい手法であるTESAR-CDEを提案する。
論文 参考訳(メタデータ) (2023-06-07T08:51:06Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - An Analysis of Ensemble Sampling [28.18592417451813]
アンサンブルサンプリングは、モデルパラメータの正確な後部分布を維持する際に、トンプソンサンプリングの実用的な近似として機能する。
線形バンディット問題にアンサンブルサンプリングを適用する際に望ましい振る舞いを確実にするベイズ後悔境界を確立する。
論文 参考訳(メタデータ) (2022-03-02T18:41:22Z) - AutoSampling: Search for Effective Data Sampling Schedules [118.20014773014671]
モデル学習のためのサンプリングスケジュールを自動的に学習するAutoSampling法を提案する。
提案手法の有効性を示す様々な画像分類タスクに本手法を適用した。
論文 参考訳(メタデータ) (2021-05-28T09:39:41Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。