Fugu-MT 論文翻訳(概要): Multi-agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation

論文の概要: Multi-agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation

arxiv url: http://arxiv.org/abs/2305.06446v1
Date: Wed, 10 May 2023 20:29:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-12 16:34:29.912174
Title: Multi-agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation
Title（参考訳）: マルチエージェント強化学習:非同期通信と線形関数近似
Authors: Yifei Min, Jiafan He, Tianhao Wang, Quanquan Gu
Abstract要約: マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
参考スコア（独自算出の注目度）: 77.09836892653176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study multi-agent reinforcement learning in the setting of episodic Markov decision processes, where multiple agents cooperate via communication through a central server. We propose a provably efficient algorithm based on value iteration that enable asynchronous communication while ensuring the advantage of cooperation with low communication overhead. With linear function approximation, we prove that our algorithm enjoys an $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$ regret with $\tilde{\mathcal{O}}(dHM^2)$ communication complexity, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the total number of agents, and $K$ is the total number of episodes. We also provide a lower bound showing that a minimal $\Omega(dM)$ communication complexity is required to improve the performance through collaboration.
Abstract（参考訳）: 本研究では,複数のエージェントが中央サーバを介して通信を介して協調するエピソディックマルコフ決定プロセスの設定において,マルチエージェント強化学習について検討する。本稿では,低通信オーバヘッドによる協調の利点を確保しつつ,非同期通信を可能にする価値反復に基づく効率の良いアルゴリズムを提案する。線形関数近似により、このアルゴリズムが$\tilde{\mathcal{o}}(d^{3/2}h^2\sqrt{k})$ regret with $\tilde{\mathcal{o}}(dhm^2)$ 通信複雑性を享受できることが証明される。また、最小の$\Omega(dM)$通信の複雑さがコラボレーションによるパフォーマンス向上に必要であることを示す低いバウンダリも提供します。

関連論文リスト

Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文参考訳（メタデータ） (2024-05-09T17:40:09Z)
Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文参考訳（メタデータ） (2023-02-22T20:21:25Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文参考訳（メタデータ） (2022-07-26T08:47:54Z)
A Simple and Provably Efficient Algorithm for Asynchronous Federated Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。 texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文参考訳（メタデータ） (2022-07-07T06:16:19Z)
Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。 Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文参考訳（メタデータ） (2022-01-23T20:04:15Z)
Distributed Saddle-Point Problems Under Similarity [173.19083235638104]
与えられたサブ最適度$epsilon0$は、$Omegabigのマスター/ワーカーネットワークで達成されることを示す。次に,ネットワークの下位の型(ログオーバまで)に適合するアルゴリズムを提案する。頑健なロジスティック回帰問題に対して提案アルゴリズムの有効性を評価する。
論文参考訳（メタデータ） (2021-07-22T14:25:16Z)
Communication Efficient Parallel Reinforcement Learning [34.77250498401055]
我々は、$m$エージェントが$s$状態と$a$アクションを持つ$m$同一および独立環境と相互作用する問題を考える。我々はエージェントが不適切なコミュニケーションラウンドで後悔を最小限に抑えるアルゴリズムを見つけることを目的としている。
論文参考訳（メタデータ） (2021-02-22T02:46:36Z)
Multi-Agent Multi-Armed Bandits with Limited Communication [41.63062883750805]
我々は、$N$エージェントが$K gg N$の$K$アームバンドイット問題のインスタンスと相互作用する問題を検討する。エージェントは、合計でT$のタイムステップ、通信ラウンドの数、各通信ラウンドにおけるビット数について、すべてのエージェントに対する累積的後悔を同時に最小化することを目指している。我々は、各エージェントがエポックの終わり後にのみ通信し、知っている最高の腕のインデックスを共有する2倍のエポックベースのアルゴリズムであるLimited Communication Collaboration - Upper Bound(LCC-UCB)を紹介します。
論文参考訳（メタデータ） (2021-02-10T06:28:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。