論文の概要: Distributed Thompson Sampling
- arxiv url: http://arxiv.org/abs/2012.01789v1
- Date: Thu, 3 Dec 2020 09:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-24 01:32:16.986248
- Title: Distributed Thompson Sampling
- Title(参考訳): 分散トンプソンサンプリング
- Authors: Jing Dong, Tan Li, Shaolei Ren, Linqi Song
- Abstract要約: 我々はMエージェントとKアームを併用した協調型マルチエージェントマルチアームバンドについて検討した。
エージェントの目標は、累積的後悔を最小限にすることである。
従来のトンプソンサンプリングアルゴリズムを分散環境下で適用する。
エージェントが協調して学習できるように,分散消去に基づくトンプソンサンプリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.813570532809212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a cooperative multi-agent multi-armed bandits with M agents and K
arms. The goal of the agents is to minimized the cumulative regret. We adapt a
traditional Thompson Sampling algoirthm under the distributed setting. However,
with agent's ability to communicate, we note that communication may further
reduce the upper bound of the regret for a distributed Thompson Sampling
approach. To further improve the performance of distributed Thompson Sampling,
we propose a distributed Elimination based Thompson Sampling algorithm that
allow the agents to learn collaboratively. We analyse the algorithm under
Bernoulli reward and derived a problem dependent upper bound on the cumulative
regret.
- Abstract(参考訳): 我々はMエージェントとKアームを用いた協調マルチエージェントマルチアームバンドの研究を行った。
エージェントの目標は、累積的後悔を最小限にすることである。
分布環境下で従来のトンプソンサンプリングalgoirthmを適応させる。
しかし,エージェントのコミュニケーション能力により,分散トンプソンサンプリング手法における後悔の上限がさらに小さくなる可能性があることに留意する。
分散トンプソンサンプリングの性能をさらに向上させるために,エージェントが協調的に学習できる分散除去型トンプソンサンプリングアルゴリズムを提案する。
ベルヌーイ報酬の下でアルゴリズムを分析し,累積的後悔の上限に依存する問題を導出した。
関連論文リスト
- Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Thompson Sampling on Asymmetric $\alpha$-Stable Bandits [0.0]
多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。
トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
論文 参考訳(メタデータ) (2022-03-19T01:55:08Z) - Thompson Sampling with Unrestricted Delays [18.059421254087976]
遅延フィードバックを用いたマルチアームバンディット問題におけるトンプソンサンプリングの特性について検討する。
我々のバウンダリは、アドホックアルゴリズムによって導出される最良のバウンダリに質的に匹敵する。
広範なシミュレーション実験では、トンプソンサンプリングがいくつかの代替案より優れていることが判明した。
論文 参考訳(メタデータ) (2022-02-24T23:56:36Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。
我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文 参考訳(メタデータ) (2021-09-06T08:58:01Z) - Batched Thompson Sampling for Multi-Armed Bandits [9.467098519620263]
本稿では,トンプソンサンプリングアルゴリズムを用いて,バッチ環境でのマルチアームバンディットについて検討する。
本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-15T20:47:46Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - MOTS: Minimax Optimal Thompson Sampling [89.2370817955411]
トンプソンサンプリングがミニマックス下限の$Omega(sqrtKT)$と$K$の武器付きバンディット問題に一致するかどうかという未解決の問題のままである。
我々は,各タイミングで選択した腕のサンプリングインスタンスを適応的にクリップするMOTSと呼ばれるトンプソンサンプリングの変種を提案する。
我々は、この単純なトンプソンサンプリングの変種が、有限時間地平線に対して$O(sqrtKT)$のミニマックス最適後悔境界と、$T$が無限に近づくときのガウス報酬に対する最適後悔境界を達成することを証明した。
論文 参考訳(メタデータ) (2020-03-03T21:24:39Z) - On Thompson Sampling with Langevin Algorithms [106.78254564840844]
多武装バンディット問題に対するトンプソンサンプリングは理論と実践の両方において良好な性能を享受する。
計算上のかなりの制限に悩まされており、反復ごとに後続分布からのサンプルを必要とする。
本稿では,この問題に対処するために,トンプソンサンプリングに適した2つのマルコフ連鎖モンテカルロ法を提案する。
論文 参考訳(メタデータ) (2020-02-23T22:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。