論文の概要: On-Demand Communication for Asynchronous Multi-Agent Bandits
- arxiv url: http://arxiv.org/abs/2302.07446v2
- Date: Thu, 31 Aug 2023 02:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 20:59:40.876478
- Title: On-Demand Communication for Asynchronous Multi-Agent Bandits
- Title(参考訳): 非同期マルチエージェント帯域に対するオンデマンド通信
- Authors: Yu-Zhen Janice Chen, Lin Yang, Xuchuang Wang, Xutong Liu, Mohammad
Hajiesmaili, John C.S. Lui, Don Towsley
- Abstract要約: ODCはオンデマンド通信プロトコルであり、経験的なプル時間に基づいて各エージェントの通信を調整します。
ODCは、エージェントのプル時間が非常に均一であり、その通信の複雑さはエージェントの実証的なプル時間に依存する。
- 参考スコア(独自算出の注目度): 43.3383282058292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies a cooperative multi-agent multi-armed stochastic bandit
problem where agents operate asynchronously -- agent pull times and rates are
unknown, irregular, and heterogeneous -- and face the same instance of a
K-armed bandit problem. Agents can share reward information to speed up the
learning process at additional communication costs. We propose ODC, an
on-demand communication protocol that tailors the communication of each pair of
agents based on their empirical pull times. ODC is efficient when the pull
times of agents are highly heterogeneous, and its communication complexity
depends on the empirical pull times of agents. ODC is a generic protocol that
can be integrated into most cooperative bandit algorithms without degrading
their performance. We then incorporate ODC into the natural extensions of UCB
and AAE algorithms and propose two communication-efficient cooperative
algorithms. Our analysis shows that both algorithms are near-optimal in regret.
- Abstract(参考訳): 本稿では,エージェントが非同期に動作し,エージェントのプルタイムとレートが未知,不規則,異種であるようなマルチエージェントのマルチエージェント確率バンディット問題について検討する。
エージェントは報酬情報を共有して、追加のコミュニケーションコストで学習プロセスをスピードアップすることができる。
我々は,実証的なプル時間に基づいて,各エージェントの通信を調整したオンデマンド通信プロトコルであるODCを提案する。
ODCは、エージェントのプル時間が非常に均一であり、その通信の複雑さはエージェントの実証的なプル時間に依存する。
ODCは一般的なプロトコルであり、性能を劣化させることなく、ほとんどの協調バンディットアルゴリズムに統合することができる。
次に,OCC を UCB アルゴリズムと AAE アルゴリズムの自然拡張に組み込んで,コミュニケーション効率の良い2つの協調アルゴリズムを提案する。
分析の結果,両アルゴリズムがほぼ最適であることがわかった。
関連論文リスト
- Federated Contextual Cascading Bandits with Asynchronous Communication
and Heterogeneous Users [95.77678166036561]
繊細な通信プロトコルを用いたUPB型アルゴリズムを提案する。
同期フレームワークで達成されたものと同等のサブ線形後悔境界を与えます。
合成および実世界のデータセットに関する実証評価は、後悔と通信コストの観点から、我々のアルゴリズムの優れた性能を検証する。
論文 参考訳(メタデータ) (2024-02-26T05:31:14Z) - Pure Exploration in Asynchronous Federated Bandits [57.02106627533004]
マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する方法について検討した。
信頼度を固定した純粋探索のための非同期マルチアームバンディットおよび線形バンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T06:04:00Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits [7.23389716633927]
我々は,FTRLアルゴリズムが,下界を一定要素に整合した個々の後悔の上界を有することを示す。
また、エッジ遅延パラメータによるスケーリングに関して、適切な正規化器を持つFTRLアルゴリズムが最適であることを示す。
論文 参考訳(メタデータ) (2022-11-30T16:46:41Z) - Private and Byzantine-Proof Cooperative Decision-Making [15.609414012418043]
協調バンディット問題は、多腕バンディットと同時に相互作用するエージェントのグループを含むマルチエージェント決定問題である。
本稿では、エージェントがアクションシーケンスに関して通信をプライベートにしたい場合と、エージェントがビザンチンになり得る場合の2つの設定の下で、バンドイット問題を調査する。
我々は,(a)微分プライベートかつ(b)プライベートでありながら,最適な後悔を得る高信頼有界アルゴリズムを提供する。
我々の分散アルゴリズムはエージェント間の接続のネットワークに関する情報を必要とせず、大規模な動的システムにスケーラブルにします。
論文 参考訳(メタデータ) (2022-05-27T18:03:54Z) - Depthwise Convolution for Multi-Agent Communication with Enhanced
Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。
まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。
第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文 参考訳(メタデータ) (2022-03-06T07:42:43Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Kernel Methods for Cooperative Multi-Agent Contextual Bandits [15.609414012418043]
協調的マルチエージェント意思決定は、遅延のあるネットワーク上で通信しながら、学習問題を協調的に解決するエージェントのグループを含む。
エージェントが得られる報酬は、関連するカーネル再生ヒルベルト空間(RKHS)におけるコンテキストのイメージの任意の線形関数である。
我々は, 年齢ごとの後悔に対して, ほぼ最適境界を与えるアルゴリズムであるtextscCoop- KernelUCBを提案する。
論文 参考訳(メタデータ) (2020-08-14T07:37:44Z) - R-MADDPG for Partially Observable Environments and Limited Communication [42.771013165298186]
本稿では, 部分観測可能な集合点と限られた通信条件下でのマルチエージェント協調処理のための, R-MADDPG (Deep Recurrent Multiagent-critic framework) を提案する。
得られたフレームワークは、欠落した観察の共有、リソース制限の処理、エージェント間の異なる通信パターンの開発のための時間依存性を学習する。
論文 参考訳(メタデータ) (2020-02-16T21:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。