論文の概要: Actively Tracking the Optimal Arm in Non-Stationary Environments with
Mandatory Probing
- arxiv url: http://arxiv.org/abs/2205.10366v1
- Date: Fri, 20 May 2022 05:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 01:06:08.471675
- Title: Actively Tracking the Optimal Arm in Non-Stationary Environments with
Mandatory Probing
- Title(参考訳): 強制探索による非定常環境における最適アームのアクティブトラッキング
- Authors: Gourab Ghatak
- Abstract要約: 我々は,従来のトンプソンサンプリング(TS)と全腕のブロードキャスト・プロブリング(BP)を同時にバランスさせるtextttTS-GEを開発した。
既存のバンディットアルゴリズムとは異なり、textttTS-GEは、タイムリーなステータス更新、クリティカルコントロール、ワイヤレスエネルギー転送などのアプリケーションにデプロイできる。
- 参考スコア(独自算出の注目度): 7.012710335689297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a novel multi-armed bandit (MAB) setting which mandates the agent to
probe all the arms periodically in a non-stationary environment. In particular,
we develop \texttt{TS-GE} that balances the regret guarantees of classical
Thompson sampling (TS) with the broadcast probing (BP) of all the arms
simultaneously in order to actively detect a change in the reward
distributions. Once a system-level change is detected, the changed arm is
identified by an optional subroutine called group exploration (GE) which scales
as $\log_2(K)$ for a $K-$armed bandit setting. We characterize the probability
of missed detection and the probability of false-alarm in terms of the
environment parameters. The latency of change-detection is upper bounded by
$\sqrt{T}$ while within a period of $\sqrt{T}$, all the arms are probed at
least once. We highlight the conditions in which the regret guarantee of
\texttt{TS-GE} outperforms that of the state-of-the-art algorithms, in
particular, \texttt{ADSWITCH} and \texttt{M-UCB}. Furthermore, unlike the
existing bandit algorithms, \texttt{TS-GE} can be deployed for applications
such as timely status updates, critical control, and wireless energy transfer,
which are essential features of next-generation wireless communication
networks. We demonstrate the efficacy of \texttt{TS-GE} by employing it in a n
industrial internet-of-things (IIoT) network designed for simultaneous wireless
information and power transfer (SWIPT).
- Abstract(参考訳): 非定常環境で定期的に全ての腕を探査するようエージェントに委任する新しいマルチアームバンディット(MAB)について検討する。
特に,古典的なトンプソンサンプリング(TS)と全腕のブロードキャスト・プロブリング(BP)を同時にバランスさせて,報酬分布の変化を積極的に検出する「texttt{TS-GE}」を開発した。
システムレベルの変更が検出されると、変更されたアームはgroup exploration(ge)と呼ばれるオプションのサブルーチンによって識別され、$k-$armed bandit設定で$\log_2(k)$にスケールされる。
環境パラメータの観点から,誤検出の確率と誤警報の確率を特徴付ける。
変化検出のレイテンシは$\sqrt{T}$で上界されるが、$\sqrt{T}$では、すべての腕は少なくとも一度は調査される。
本稿では,現在最先端のアルゴリズム,特に \texttt{ADSWITCH} や \texttt{M-UCB} よりも高い性能を示す条件を強調した。
さらに、既存のバンディットアルゴリズムとは異なり、 \texttt{TS-GE} は、次世代無線通信ネットワークの重要な特徴である、タイムリーなステータス更新、クリティカルコントロール、ワイヤレスエネルギー転送などのアプリケーションにデプロイすることができる。
IIoT(Industrial Internet-of-Things)ネットワークにおいて,SWIPT(Interactive Wireless Information and Power Transfer)とSWIPT(Industrial Internet-of-Things)を併用し,その有効性を実証した。
関連論文リスト
- DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - Discounted Thompson Sampling for Non-Stationary Bandit Problems [13.656518163592349]
NS-MAB(Non-stationary multi-armed bandit)問題も最近注目されている。
非定常条件の両方に対処するため,ガウシアン先行値を用いたディスカウントトンプソンサンプリング(DS-TS)を提案する。
我々のアルゴリズムは、トンプソンサンプリングに割引係数を組み込むことにより、変化に順応的に適応する。
論文 参考訳(メタデータ) (2023-05-18T05:29:52Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。
まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。
次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:09:39Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - Kolmogorov-Smirnov Test-Based Actively-Adaptive Thompson Sampling for
Non-Stationary Bandits [2.879036956042183]
我々は,非定常マルチアーム・バンディット(MAB)フレームワークを考察し,コルモゴロフ・スミルノフ(KS)テストに基づくトンプソンサンプリング(TS-KS)アルゴリズムを提案する。
特に、両腕のバンディットの場合、報奨分布のサンプル数に基づいて境界を導出し、一度変化が生じたときにその変化を検出する。
その結果,TS-KSアルゴリズムは静的TSアルゴリズムよりも優れた性能を示し,非定常環境向けに設計された他の帯域幅アルゴリズムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-05-30T17:28:41Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z) - A Change-Detection Based Thompson Sampling Framework for Non-Stationary
Bandits [7.012710335689297]
本研究では,非定常な2本腕バンディットフレームワークについて検討し,変化検出に基づくトンプソンサンプリングアルゴリズムを提案する。
提案手法は、腕の最近の報酬の経験的平均と、その歴史から得られる報酬の平均を推定する。
無線ネットワークにおける無線アクセス技術 (RAT) の選択をエッジ制御するために, TS-CDの有効性を検証する。
論文 参考訳(メタデータ) (2020-09-06T18:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。