論文の概要: Thompson Sampling with Unrestricted Delays
- arxiv url: http://arxiv.org/abs/2202.12431v1
- Date: Thu, 24 Feb 2022 23:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:05:42.975455
- Title: Thompson Sampling with Unrestricted Delays
- Title(参考訳): 制限なし遅延によるトンプソンサンプリング
- Authors: Han Wu and Stefan Wager
- Abstract要約: 遅延フィードバックを用いたマルチアームバンディット問題におけるトンプソンサンプリングの特性について検討する。
我々のバウンダリは、アドホックアルゴリズムによって導出される最良のバウンダリに質的に匹敵する。
広範なシミュレーション実験では、トンプソンサンプリングがいくつかの代替案より優れていることが判明した。
- 参考スコア(独自算出の注目度): 18.059421254087976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate properties of Thompson Sampling in the stochastic multi-armed
bandit problem with delayed feedback. In a setting with i.i.d delays, we
establish to our knowledge the first regret bounds for Thompson Sampling with
arbitrary delay distributions, including ones with unbounded expectation. Our
bounds are qualitatively comparable to the best available bounds derived via
ad-hoc algorithms, and only depend on delays via selected quantiles of the
delay distributions. Furthermore, in extensive simulation experiments, we find
that Thompson Sampling outperforms a number of alternative proposals, including
methods specifically designed for settings with delayed feedback.
- Abstract(参考訳): 確率的マルチアームバンディット問題におけるトンプソンサンプリングの特性を遅延フィードバックを用いて検討する。
i.d の遅延を伴う設定において、トンプソンサンプリングの最初の後悔境界を、有界な期待値を含む任意の遅延分布で証明する。
我々の境界は、アドホックアルゴリズムによって導かれる最良境界と質的に比較され、遅延分布の選択された分位数による遅延のみに依存する。
さらに,広範なシミュレーション実験において,トンプソンサンプリングは,フィードバックが遅れている設定用に特別に設計された手法を含む,多くの代替案よりも優れていることがわかった。
関連論文リスト
- Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - A Reduction-based Framework for Sequential Decision Making with Delayed
Feedback [53.79893086002961]
汎用マルチエージェントシーケンシャル意思決定における遅延フィードバックについて検討する。
本稿では, 逐次的意思決定のためのマルチバッチアルゴリズムを, 即時フィードバックにより, サンプル効率のよいアルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-03T01:16:09Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Asymptotic Performance of Thompson Sampling in the Batched Multi-Armed
Bandits [0.0]
我々は,トンプソンサンプリングがバッチで遅延フィードバックを受信しても,その性能を維持可能であることを示す。
同じ性能を維持しつつ,バッチ数を$Theta(log T)$に削減する適応型スキームを提案する。
論文 参考訳(メタデータ) (2021-10-01T01:28:40Z) - Batched Thompson Sampling for Multi-Armed Bandits [9.467098519620263]
本稿では,トンプソンサンプリングアルゴリズムを用いて,バッチ環境でのマルチアームバンディットについて検討する。
本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-15T20:47:46Z) - Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions [54.25616645675032]
アルゴリズムが受信したフィードバックにランダムな遅延を伴うマルチアーマッド・バンドイット(MAB)問題について検討する。
報酬非依存の遅延設定は、報酬非依存の遅延設定と、報酬非依存の遅延設定に依存する可能性がある。
私たちの主な貢献は、それぞれの設定でほぼ最適に後悔するアルゴリズムです。
論文 参考訳(メタデータ) (2021-06-04T12:26:06Z) - Distributed Thompson Sampling [22.813570532809212]
我々はMエージェントとKアームを併用した協調型マルチエージェントマルチアームバンドについて検討した。
エージェントの目標は、累積的後悔を最小限にすることである。
従来のトンプソンサンプリングアルゴリズムを分散環境下で適用する。
エージェントが協調して学習できるように,分散消去に基づくトンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T09:42:37Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - On Thompson Sampling with Langevin Algorithms [106.78254564840844]
多武装バンディット問題に対するトンプソンサンプリングは理論と実践の両方において良好な性能を享受する。
計算上のかなりの制限に悩まされており、反復ごとに後続分布からのサンプルを必要とする。
本稿では,この問題に対処するために,トンプソンサンプリングに適した2つのマルコフ連鎖モンテカルロ法を提案する。
論文 参考訳(メタデータ) (2020-02-23T22:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。