論文の概要: Finite-Time Frequentist Regret Bounds of Multi-Agent Thompson Sampling
on Sparse Hypergraphs
- arxiv url: http://arxiv.org/abs/2312.15549v1
- Date: Sun, 24 Dec 2023 21:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:40:45.076492
- Title: Finite-Time Frequentist Regret Bounds of Multi-Agent Thompson Sampling
on Sparse Hypergraphs
- Title(参考訳): スパースハイパーグラフにおけるマルチエージェントトンプソンサンプリングの有限時間頻出的後悔限界
- Authors: Tianyuan Jin, Hao-Lun Hsu, William Chang, Pan Xu
- Abstract要約: マルチエージェントマルチアーム・バンドイット(MAMAB)問題について検討し,$m$エージェントを$rho$オーバーラップするグループに分解する。
そこで本稿では,MATS の効率的な変種として$epsilon$-exploring Multi-Agent Thompson Sampling (epsilon$-MATS) アルゴリズムを提案する。
我々は、$epsilon$-MATSが、時間地平線と局所アームサイズの両方においてサブ線形である最悪の頻繁な後悔境界を達成することを証明した。
- 参考スコア(独自算出の注目度): 11.024467775280193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the multi-agent multi-armed bandit (MAMAB) problem, where $m$ agents
are factored into $\rho$ overlapping groups. Each group represents a hyperedge,
forming a hypergraph over the agents. At each round of interaction, the learner
pulls a joint arm (composed of individual arms for each agent) and receives a
reward according to the hypergraph structure. Specifically, we assume there is
a local reward for each hyperedge, and the reward of the joint arm is the sum
of these local rewards. Previous work introduced the multi-agent Thompson
sampling (MATS) algorithm \citep{verstraeten2020multiagent} and derived a
Bayesian regret bound. However, it remains an open problem how to derive a
frequentist regret bound for Thompson sampling in this multi-agent setting. To
address these issues, we propose an efficient variant of MATS, the
$\epsilon$-exploring Multi-Agent Thompson Sampling ($\epsilon$-MATS) algorithm,
which performs MATS exploration with probability $\epsilon$ while adopts a
greedy policy otherwise. We prove that $\epsilon$-MATS achieves a worst-case
frequentist regret bound that is sublinear in both the time horizon and the
local arm size. We also derive a lower bound for this setting, which implies
our frequentist regret upper bound is optimal up to constant and logarithm
terms, when the hypergraph is sufficiently sparse. Thorough experiments on
standard MAMAB problems demonstrate the superior performance and the improved
computational efficiency of $\epsilon$-MATS compared with existing algorithms
in the same setting.
- Abstract(参考訳): 我々は、mamab(multi-agent multi-armed bandit)問題を研究し、m$エージェントは$\rho$オーバーラップグループに分解される。
各グループはハイパーエッジを表し、エージェントの上にハイパーグラフを形成する。
インタラクションの各ラウンドにおいて、学習者は、ジョイントアーム(各エージェント用の個々のアーム)を引っ張り、ハイパーグラフ構造に応じて報酬を受け取る。
具体的には、各ハイパーエッジに局所的な報酬があると仮定し、関節の報酬はこれらの局所的な報酬の合計である。
以前の研究はマルチエージェントトンプソンサンプリング (MATS) アルゴリズムである citep{verstraeten 2020multiagent} を導入し、ベイズ的後悔境界を導出した。
しかし、このマルチエージェント設定においてトンプソンサンプリングに対する頻繁な後悔を導出する方法は未解決の問題である。
これらの問題に対処するため、我々はMATSの効率的な変種である$\epsilon$-exploring Multi-Agent Thompson Sampling($\epsilon$-MATS)アルゴリズムを提案し、それ以外はgreedyポリシーを採用しながら確率$\epsilon$でMATS探索を行う。
我々は、$\epsilon$-MATSが、時間水平線と局所アームサイズの両方においてサブ線形である最悪のケース頻繁な後悔境界を達成することを証明した。
我々はまた、この設定に対する下限を導出する。これは、ハイパーグラフが十分にスパースである場合に、我々の頻繁な後悔の上限が、定数と対数項まで最適であることを意味する。
標準的なMAMAB問題に対する詳細な実験は、既存のアルゴリズムと比較すると、$\epsilon$-MATSの優れた性能と計算効率の向上を示している。
関連論文リスト
- Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - Fair Multi-Agent Bandits [14.614647884175657]
残念な$Oleft(N3 log fracBDelta f(log T) log T right)$, where $f(t)$ は infinity に $t$ で分岐する任意の関数である。
これにより、オーダー$O(f(log T) log T )$と同じ上限を持つ前の結果を大幅に改善するが、エージェントの数に指数関数的に依存する。
論文 参考訳(メタデータ) (2023-06-07T15:05:53Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic
Gradient Descent and Thompson Sampling [83.48992319018147]
プレイヤーが過去の観測結果に基づいて逐次意思決定を行い、累積報酬を最大化する文脈的帯域幅問題を考える。
この問題を解決する自然な方法は、ステップごとの時間とメモリの複雑さを一定に抑えるために、オンライン勾配降下(SGD)を適用することである。
本研究では,オンラインSGDが一般化線形帯域問題に適用可能であることを示す。
過去の情報を活用するためにシングルステップのSGD更新を利用するSGD-TSアルゴリズムは、全時間複雑度で$tildeO(sqrtT)$ regretを達成する。
論文 参考訳(メタデータ) (2020-06-07T01:12:39Z) - MOTS: Minimax Optimal Thompson Sampling [89.2370817955411]
トンプソンサンプリングがミニマックス下限の$Omega(sqrtKT)$と$K$の武器付きバンディット問題に一致するかどうかという未解決の問題のままである。
我々は,各タイミングで選択した腕のサンプリングインスタンスを適応的にクリップするMOTSと呼ばれるトンプソンサンプリングの変種を提案する。
我々は、この単純なトンプソンサンプリングの変種が、有限時間地平線に対して$O(sqrtKT)$のミニマックス最適後悔境界と、$T$が無限に近づくときのガウス報酬に対する最適後悔境界を達成することを証明した。
論文 参考訳(メタデータ) (2020-03-03T21:24:39Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。