論文の概要: A Change-Detection Based Thompson Sampling Framework for Non-Stationary
Bandits
- arxiv url: http://arxiv.org/abs/2009.02791v1
- Date: Sun, 6 Sep 2020 18:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 08:38:49.588400
- Title: A Change-Detection Based Thompson Sampling Framework for Non-Stationary
Bandits
- Title(参考訳): 非定常バンディットのための変化検出に基づくトンプソンサンプリングフレームワーク
- Authors: Gourab Ghatak
- Abstract要約: 本研究では,非定常な2本腕バンディットフレームワークについて検討し,変化検出に基づくトンプソンサンプリングアルゴリズムを提案する。
提案手法は、腕の最近の報酬の経験的平均と、その歴史から得られる報酬の平均を推定する。
無線ネットワークにおける無線アクセス技術 (RAT) の選択をエッジ制御するために, TS-CDの有効性を検証する。
- 参考スコア(独自算出の注目度): 7.012710335689297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a non-stationary two-armed bandit framework and propose a
change-detection based Thompson sampling (TS) algorithm, named TS with
change-detection (TS-CD), to keep track of the dynamic environment. The
non-stationarity is modeled using a Poisson arrival process, which changes the
mean of the rewards on each arrival. The proposed strategy compares the
empirical mean of the recent rewards of an arm with the estimate of the mean of
the rewards from its history. It detects a change when the empirical mean
deviates from the mean estimate by a value larger than a threshold. Then, we
characterize the lower bound on the duration of the time-window for which the
bandit framework must remain stationary for TS-CD to successfully detect a
change when it occurs. Consequently, our results highlight an upper bound on
the parameter for the Poisson arrival process, for which the TS-CD achieves
asymptotic regret optimality with high probability. Finally, we validate the
efficacy of TS-CD by testing it for edge-control of radio access technique
(RAT)-selection in a wireless network. Our results show that TS-CD not only
outperforms the classical max-power RAT selection strategy but also other
actively adaptive and passively adaptive bandit algorithms that are designed
for non-stationary environments.
- Abstract(参考訳): 本研究では,非定常な2本腕バンディット・フレームワークについて検討し,動的環境の追跡を行うため,TS(change-detection with TS-CD)アルゴリズムを提案する。
非定常性はポアソン到着過程を用いてモデル化され、到着毎の報酬の平均が変化する。
提案手法は,最近の腕の報酬に対する経験的平均と,その歴史から得られる報酬の平均の推定値を比較した。
経験平均が平均推定値から閾値よりも大きい値でずれたときの変化を検出する。
そこで我々は,TS-CDが変化を検知するために,帯域幅が一定でなければならない時間窓の時間境界を特徴付ける。
その結果,ポアソンの到着過程のパラメータの上限が明らかになり,TS-CDは漸近的後悔の最適性を高い確率で達成した。
最後に,無線ネットワークにおける無線アクセス技術(RAT)選択のエッジ制御のためのTS-CDの有効性を検証する。
以上の結果から,ts-cdは古典的マックスパワーラット選択戦略に勝るだけでなく,非定常環境向けに設計された能動的適応型および受動的適応型バンディットアルゴリズムに勝ることが示された。
関連論文リスト
- UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Guiding Pseudo-labels with Uncertainty Estimation for Test-Time
Adaptation [27.233704767025174]
Test-Time Adaptation (TTA) は、Unsupervised Domain Adaptation (UDA) の特定のケースであり、モデルがソースデータにアクセスせずにターゲットドメインに適合する。
本稿では,損失再重み付け戦略に基づくTTA設定のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-07T10:04:55Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Optimality of Thompson Sampling with Noninformative Priors for Pareto
Bandits [81.45853204922795]
トンプソンサンプリングは、いくつかの報酬モデルにおいて問題依存の低い境界を達成することが示されている。
重い尾を持つパレートモデルに対するTSの最適性は、2つの未知のパラメータによってパラメータ化される。
ジェフリーズおよび参照先行値を持つTSは、トラルニケート手順を使用すると、下界を達成できる。
論文 参考訳(メタデータ) (2023-02-03T04:47:14Z) - Adaptive Resources Allocation CUSUM for Binomial Count Data Monitoring
with Application to COVID-19 Hotspot Detection [11.954681424276528]
サンプリング資源が限られているホットスポットを頑健かつ効率的に検出する効率的な統計手法を提案する。
本研究の主な目的は、マルチアーム・バンディット(MAB)と変更点検出法を組み合わせることである。
本手法はワシントン州ハワイ州における郡レベルでの1日当たりの新型コロナウイルス感染者の実態調査においてホットスポット検出に応用された。
論文 参考訳(メタデータ) (2022-08-09T21:26:28Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for
Non-Stationary Bandits [2.879036956042183]
我々は,非定常マルチアーム・バンディット(MAB)フレームワークを考察し,コルモゴロフ・スミルノフ(KS)テストに基づくトンプソンサンプリング(TS-KS)アルゴリズムを提案する。
特に、両腕のバンディットの場合、報奨分布のサンプル数に基づいて境界を導出し、一度変化が生じたときにその変化を検出する。
その結果,TS-KSアルゴリズムは静的TSアルゴリズムよりも優れた性能を示し,非定常環境向けに設計された他の帯域幅アルゴリズムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-05-30T17:28:41Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z) - Bandit Change-Point Detection for Real-Time Monitoring High-Dimensional
Data Under Sampling Control [13.249453757295083]
本稿では,マルチアームバンディット手法を逐次変化点検出に適用し,効率的なバンディット変化点検出アルゴリズムを提案する。
適応サンプリング法はトンプソンサンプリング法を即時報酬獲得のための探索と搾取のバランスに応用し,統計的決定法は局所シリャーエフ・ロバーツ・ポラック統計を融合させ,総和縮小法によりグローバルアラームを上昇させるか否かを決定する。
論文 参考訳(メタデータ) (2020-09-24T18:30:55Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。