Fugu-MT 論文翻訳(概要): Batched Thompson Sampling for Multi-Armed Bandits

論文の概要: Batched Thompson Sampling for Multi-Armed Bandits

arxiv url: http://arxiv.org/abs/2108.06812v1
Date: Sun, 15 Aug 2021 20:47:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-18 01:27:03.744681
Title: Batched Thompson Sampling for Multi-Armed Bandits
Title（参考訳）: マルチアームバンディットのためのバッチトンプソンサンプリング
Authors: Nikolai Karpov, Qin Zhang
Abstract要約: 本稿では,トンプソンサンプリングアルゴリズムを用いて,バッチ環境でのマルチアームバンディットについて検討する。本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する2つのアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 9.467098519620263
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study Thompson Sampling algorithms for stochastic multi-armed bandits in the batched setting, in which we want to minimize the regret over a sequence of arm pulls using a small number of policy changes (or, batches). We propose two algorithms and demonstrate their effectiveness by experiments on both synthetic and real datasets. We also analyze the proposed algorithms from the theoretical aspect and obtain almost tight regret-batches tradeoffs for the two-arm case.
Abstract（参考訳）: 我々は,バッチ設定における確率的多腕バンディットに対するトンプソンサンプリングアルゴリズムについて検討し,少数のポリシー変更(あるいはバッチ)を用いて,アームプルのシーケンス上での後悔を最小限に抑えることを望む。本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する。また,提案したアルゴリズムを理論的側面から解析し,両腕のケースに対するほぼ厳密な後悔バッチトレードオフを得る。

関連論文リスト

Thompson Sampling-like Algorithms for Stochastic Rising Bandits [20.143361197609934]
レイジング・レステッド・バンディット(Rising rested bandit、SRRB)は、腕が引っ張られるにつれて、期待される報酬が増加する舞台である。この研究は、SRRBにおけるそのようなアルゴリズムに対する新たな後悔の分析を提供し、課題を強調し、独立した技術ツールを提供する。
論文参考訳（メタデータ） (2025-05-17T17:19:07Z)
An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文参考訳（メタデータ） (2023-06-15T15:37:31Z)
Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文参考訳（メタデータ） (2022-09-16T23:34:44Z)
Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文参考訳（メタデータ） (2022-06-22T17:58:23Z)
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文参考訳（メタデータ） (2021-12-15T22:11:58Z)
Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文参考訳（メタデータ） (2021-09-06T08:58:01Z)
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文参考訳（メタデータ） (2021-08-25T17:09:01Z)
Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文参考訳（メタデータ） (2021-06-15T14:40:34Z)
Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文参考訳（メタデータ） (2021-02-25T22:29:25Z)
Distributed Thompson Sampling [22.813570532809212]
我々はMエージェントとKアームを併用した協調型マルチエージェントマルチアームバンドについて検討した。エージェントの目標は、累積的後悔を最小限にすることである。従来のトンプソンサンプリングアルゴリズムを分散環境下で適用する。エージェントが協調して学習できるように,分散消去に基づくトンプソンサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-03T09:42:37Z)
Analysis and Design of Thompson Sampling for Stochastic Partial Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文参考訳（メタデータ） (2020-06-17T05:48:33Z)
On Thompson Sampling with Langevin Algorithms [106.78254564840844]
多武装バンディット問題に対するトンプソンサンプリングは理論と実践の両方において良好な性能を享受する。計算上のかなりの制限に悩まされており、反復ごとに後続分布からのサンプルを必要とする。本稿では,この問題に対処するために,トンプソンサンプリングに適した2つのマルコフ連鎖モンテカルロ法を提案する。
論文参考訳（メタデータ） (2020-02-23T22:35:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。