論文の概要: Near-Optimal Collaborative Learning in Bandits
- arxiv url: http://arxiv.org/abs/2206.00121v1
- Date: Tue, 31 May 2022 21:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 10:11:07.187305
- Title: Near-Optimal Collaborative Learning in Bandits
- Title(参考訳): バンドにおける近接最適協調学習
- Authors: Cl\'emence R\'eda, Sattar Vakili, Emilie Kaufmann
- Abstract要約: 本稿では,各エージェントが有限個のアームに対向する一般マルチエージェントバンディットモデルを提案する。
ツイストは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
純粋探索のための近似アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.456561090871244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a general multi-agent bandit model in which each agent
is facing a finite set of arms and may communicate with other agents through a
central controller in order to identify, in pure exploration, or play, in
regret minimization, its optimal arm. The twist is that the optimal arm for
each agent is the arm with largest expected mixed reward, where the mixed
reward of an arm is a weighted sum of the rewards of this arm for all agents.
This makes communication between agents often necessary. This general setting
allows to recover and extend several recent models for collaborative bandit
learning, including the recently proposed federated learning with
personalization (Shi et al., 2021). In this paper, we provide new lower bounds
on the sample complexity of pure exploration and on the regret. We then propose
a near-optimal algorithm for pure exploration. This algorithm is based on
phased elimination with two novel ingredients: a data-dependent sampling scheme
within each phase, aimed at matching a relaxation of the lower bound.
- Abstract(参考訳): 本稿では,各エージェントが有限のアームに面し,他のエージェントと中央制御器を介して通信し,純粋な探索や遊びにおいて,後悔の最小化において,その最適なアームを識別する,一般的なマルチエージェントバンディットモデルを提案する。
ねじれは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
これにより、エージェント間のコミュニケーションがしばしば必要となる。
この一般的な設定は、最近提案されたパーソナライゼーションによる連合学習(shi et al., 2021)を含む、最近の共同バンディット学習モデルの復元と拡張を可能にする。
本稿では,純粋な探索の複雑さと後悔に対する新たな下位境界について述べる。
次に,純粋探索のための近似最適アルゴリズムを提案する。
このアルゴリズムは、2つの新しい成分による位相除去に基づいている: 各フェーズ内のデータ依存サンプリングスキームで、下界の緩和をマッチングすることを目的としている。
関連論文リスト
- An Algorithm for Fixed Budget Best Arm Identification with Combinatorial Exploration [3.9901365062418312]
我々は、K$$armed banditフレームワークにおける最適な腕識別問題を考察する。
エージェントは1つのアームではなく、各タイムスロットでアームのサブセットをプレイすることができる。
我々は、$log K$グループを構築し、最適なアームの存在を検出するための確率比テストを実行するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-03T15:10:08Z) - Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Optimal Regret Bounds for Collaborative Learning in Bandits [10.76667043339504]
一般的な協調型マルチエージェント・マルチアーム・バンディット・モデルにおける後悔について考察する。
このモデルの下では、順序最適後悔境界を持つ最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-15T10:36:13Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Doubly Adversarial Federated Bandits [7.23389716633927]
本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。
我々のアルゴリズムは、Cesa-Bianchi et alで提案されたオープンな質問に対して肯定的な答えを与える。
論文 参考訳(メタデータ) (2023-01-22T22:36:43Z) - Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文 参考訳(メタデータ) (2022-01-23T20:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。