Fugu-MT 論文翻訳(概要): Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits

論文の概要: Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits

arxiv url: http://arxiv.org/abs/2006.06613v2
Date: Sun, 3 Jan 2021 15:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 10:11:23.911662
Title: Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits
Title（参考訳）: 組合せ半バンドにおけるトンプソンサンプリングの統計的効率
Authors: Pierre Perrault, Etienne Boursier, Vianney Perchet, Michal Valko
Abstract要約: 半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
参考スコア（独自算出の注目度）: 56.31950477139053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate stochastic combinatorial multi-armed bandit with semi-bandit feedback (CMAB). In CMAB, the question of the existence of an efficient policy with an optimal asymptotic regret (up to a factor poly-logarithmic with the action size) is still open for many families of distributions, including mutually independent outcomes, and more generally the multivariate sub-Gaussian family. We propose to answer the above question for these two families by analyzing variants of the Combinatorial Thompson Sampling policy (CTS). For mutually independent outcomes in $[0,1]$, we propose a tight analysis of CTS using Beta priors. We then look at the more general setting of multivariate sub-Gaussian outcomes and propose a tight analysis of CTS using Gaussian priors. This last result gives us an alternative to the Efficient Sampling for Combinatorial Bandit policy (ESCB), which, although optimal, is not computationally efficient.
Abstract（参考訳）: 半バンドフィードバック(cmab)を用いた確率的組合せ型多腕バンディットについて検討した。 cmabでは、最適な漸近的後悔(作用の大きさの因子多対数まで)を持つ効率的な政策が存在するという問題は、相互に独立した結果を含む分布の多くの族、より一般に多変量サブガウシアン族に対して依然として開かれている。本稿では,これら2つの家系について,Y Combinatorial Thompson Sampling Policy (CTS) の変種を分析して,上記の質問に答える。互いに独立な$[0,1]$の場合、ベータ先行値を用いたCTSの厳密な解析を提案する。次に,多変量サブガウシアン結果のより一般的な設定を考察し,ガウシアン前駆体を用いたctsの厳密な解析を提案する。この最後の結果は、最適ではあるが計算効率が良くない組合せバンディットポリシー(escb)の効率的なサンプリングの代替となる。

関連論文リスト

Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leiblier Maillard Sampling [24.487235945761913]
本研究では, 1-Exponential Distribution (OPED) ファミリーに属する報酬分布を持つマルチアーメッド・バンディット(MAB)の問題について検討する。本稿では,複数の最適性基準を同時に達成できるアルゴリズム,Exponential Kullback-Leibler Maillard Sampling(expklms)を設計する。
論文参考訳（メタデータ） (2025-02-20T09:12:16Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
A General Recipe for the Analysis of Randomized Multi-Armed Bandit Algorithms [14.33758865948252]
我々は2つの有名なバンディットアルゴリズム、Minimum Empirical Divergence (MED)とThompson Sampling (TS)を再検討する。 MEDがこれらのモデルすべてに最適であることを示すとともに、最適性がすでに知られているTSアルゴリズムの簡単な後悔解析も提供する。
論文参考訳（メタデータ） (2023-03-10T16:43:48Z)
Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-31T13:09:39Z)
SPRT-based Efficient Best Arm Identification in Stochastic Bandits [31.359578768463752]
本稿では,固定信頼度設定におけるマルチアームバンディットの腕識別問題について検討する。バンドイットの指数族に対する既存のアルゴリズムは計算上の課題に直面している。逐次テストに有効であることが知られている確率比ベースのテストを採用するフレームワークが提案されている。
論文参考訳（メタデータ） (2022-07-22T15:54:53Z)
Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文参考訳（メタデータ） (2021-12-15T22:11:58Z)
Bayesian decision-making under misspecified priors with applications to meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。性能は不特定な事前条件で優雅に低下することを示す。
論文参考訳（メタデータ） (2021-07-03T23:17:26Z)
SGD with shuffling: optimal rates without component convexity and large epoch requirements [60.65928290219793]
我々はRandomShuffle(各エポックの開始時のシャッフル)とSingleShuffle(1回だけシャッフル)を考える。我々はこれらのアルゴリズムの最小収束速度をポリログ係数ギャップまで確立する。我々は、すべての先行芸術に共通する欠点を取り除くことにより、RandomShuffleの厳密な収束結果をさらに強化する。
論文参考訳（メタデータ） (2020-06-12T05:00:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。