論文の概要: Near-Optimal Collaborative Learning in Bandits
- arxiv url: http://arxiv.org/abs/2206.00121v1
- Date: Tue, 31 May 2022 21:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 10:11:07.187305
- Title: Near-Optimal Collaborative Learning in Bandits
- Title(参考訳): バンドにおける近接最適協調学習
- Authors: Cl\'emence R\'eda, Sattar Vakili, Emilie Kaufmann
- Abstract要約: 本稿では,各エージェントが有限個のアームに対向する一般マルチエージェントバンディットモデルを提案する。
ツイストは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
純粋探索のための近似アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.456561090871244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a general multi-agent bandit model in which each agent
is facing a finite set of arms and may communicate with other agents through a
central controller in order to identify, in pure exploration, or play, in
regret minimization, its optimal arm. The twist is that the optimal arm for
each agent is the arm with largest expected mixed reward, where the mixed
reward of an arm is a weighted sum of the rewards of this arm for all agents.
This makes communication between agents often necessary. This general setting
allows to recover and extend several recent models for collaborative bandit
learning, including the recently proposed federated learning with
personalization (Shi et al., 2021). In this paper, we provide new lower bounds
on the sample complexity of pure exploration and on the regret. We then propose
a near-optimal algorithm for pure exploration. This algorithm is based on
phased elimination with two novel ingredients: a data-dependent sampling scheme
within each phase, aimed at matching a relaxation of the lower bound.
- Abstract(参考訳): 本稿では,各エージェントが有限のアームに面し,他のエージェントと中央制御器を介して通信し,純粋な探索や遊びにおいて,後悔の最小化において,その最適なアームを識別する,一般的なマルチエージェントバンディットモデルを提案する。
ねじれは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
これにより、エージェント間のコミュニケーションがしばしば必要となる。
この一般的な設定は、最近提案されたパーソナライゼーションによる連合学習(shi et al., 2021)を含む、最近の共同バンディット学習モデルの復元と拡張を可能にする。
本稿では,純粋な探索の複雑さと後悔に対する新たな下位境界について述べる。
次に,純粋探索のための近似最適アルゴリズムを提案する。
このアルゴリズムは、2つの新しい成分による位相除去に基づいている: 各フェーズ内のデータ依存サンプリングスキームで、下界の緩和をマッチングすることを目的としている。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Optimal Regret Bounds for Collaborative Learning in Bandits [10.76667043339504]
一般的な協調型マルチエージェント・マルチアーム・バンディット・モデルにおける後悔について考察する。
このモデルの下では、順序最適後悔境界を持つ最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-15T10:36:13Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [24.590517939890788]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。
エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文 参考訳(メタデータ) (2023-05-30T06:35:49Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Doubly Adversarial Federated Bandits [7.23389716633927]
本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。
我々のアルゴリズムは、Cesa-Bianchi et alで提案されたオープンな質問に対して肯定的な答えを与える。
論文 参考訳(メタデータ) (2023-01-22T22:36:43Z) - Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文 参考訳(メタデータ) (2022-01-23T20:04:15Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。