論文の概要: Cooperative Multi-agent Bandits: Distributed Algorithms with Optimal
Individual Regret and Constant Communication Costs
- arxiv url: http://arxiv.org/abs/2308.04314v1
- Date: Tue, 8 Aug 2023 15:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:26:26.298512
- Title: Cooperative Multi-agent Bandits: Distributed Algorithms with Optimal
Individual Regret and Constant Communication Costs
- Title(参考訳): 協調マルチエージェントバンド: 最適な個別レグレットと一定通信コストを持つ分散アルゴリズム
- Authors: Lin Yang, Xuchuang Wang, Mohammad Hajiesmaili, Lijun Zhang, John C.S.
Lui, Don Towsley
- Abstract要約: 本稿では,単純だが効果的な通信方針を提示し,それを協調的盗賊学習アルゴリズムに統合する。
我々のアルゴリズムは、最適な個人の後悔と絶え間ないコミュニケーションコストという、両方のパラダイムの長所を達成している。
- 参考スコア(独自算出の注目度): 46.068883750876886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been extensive study of cooperative multi-agent
multi-armed bandits where a set of distributed agents cooperatively play the
same multi-armed bandit game. The goal is to develop bandit algorithms with the
optimal group and individual regrets and low communication between agents. The
prior work tackled this problem using two paradigms: leader-follower and fully
distributed algorithms. Prior algorithms in both paradigms achieve the optimal
group regret. The leader-follower algorithms achieve constant communication
costs but fail to achieve optimal individual regrets. The state-of-the-art
fully distributed algorithms achieve optimal individual regrets but fail to
achieve constant communication costs. This paper presents a simple yet
effective communication policy and integrates it into a learning algorithm for
cooperative bandits. Our algorithm achieves the best of both paradigms: optimal
individual regret and constant communication costs.
- Abstract(参考訳): 近年,一組の分散エージェントが協調的に同じマルチアームバンディットゲームをする,協調型マルチエージェントマルチアームバンディットの研究が盛んに行われている。
目標は、最適なグループと個人の後悔とエージェント間のコミュニケーションの少ないバンディットアルゴリズムを開発することである。
以前の作業では、リーダフォローと完全な分散アルゴリズムという2つのパラダイムを使用してこの問題に取り組んでいた。
両方のパラダイムにおける先行アルゴリズムは、最適なグループ後悔を達成する。
リーダー追跡アルゴリズムは一定の通信コストを達成するが、最適な個人の後悔は達成できない。
最先端の完全分散アルゴリズムは、最適な個別の後悔を実現するが、一定の通信コストは達成できない。
本稿では,シンプルだが効果的な通信方針を示し,協調的盗賊学習アルゴリズムに統合する。
我々のアルゴリズムは、最適な個人の後悔と絶え間ないコミュニケーションコストという、両方のパラダイムのベストを達成する。
関連論文リスト
- QuACK: A Multipurpose Queuing Algorithm for Cooperative $k$-Armed Bandits [5.530212768657544]
我々は、$m$エージェントのネットワークが協調して最適な行動を見つける、協調的な$k$武器の盗賊問題を研究する。
単一エージェントのバンディットアルゴリズムをマルチエージェント設定に拡張できるブラックボックスリダクションを提供する。
論文 参考訳(メタデータ) (2024-10-31T12:20:36Z) - Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T06:04:00Z) - Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [24.590517939890788]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。
エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文 参考訳(メタデータ) (2023-05-30T06:35:49Z) - On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits [7.23389716633927]
我々は,FTRLアルゴリズムが,下界を一定要素に整合した個々の後悔の上界を有することを示す。
また、エッジ遅延パラメータによるスケーリングに関して、適切な正規化器を持つFTRLアルゴリズムが最適であることを示す。
論文 参考訳(メタデータ) (2022-11-30T16:46:41Z) - Private and Byzantine-Proof Cooperative Decision-Making [15.609414012418043]
協調バンディット問題は、多腕バンディットと同時に相互作用するエージェントのグループを含むマルチエージェント決定問題である。
本稿では、エージェントがアクションシーケンスに関して通信をプライベートにしたい場合と、エージェントがビザンチンになり得る場合の2つの設定の下で、バンドイット問題を調査する。
我々は,(a)微分プライベートかつ(b)プライベートでありながら,最適な後悔を得る高信頼有界アルゴリズムを提供する。
我々の分散アルゴリズムはエージェント間の接続のネットワークに関する情報を必要とせず、大規模な動的システムにスケーラブルにします。
論文 参考訳(メタデータ) (2022-05-27T18:03:54Z) - Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文 参考訳(メタデータ) (2022-01-23T20:04:15Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。