論文の概要: Accelerating Distributed Online Meta-Learning via Multi-Agent
Collaboration under Limited Communication
- arxiv url: http://arxiv.org/abs/2012.08660v2
- Date: Sat, 19 Dec 2020 19:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:05:02.457661
- Title: Accelerating Distributed Online Meta-Learning via Multi-Agent
Collaboration under Limited Communication
- Title(参考訳): 限定的なコミュニケーション下でのマルチエージェントコラボレーションによる分散オンラインメタラーニングの高速化
- Authors: Sen Lin, Mehmet Dedeoglu and Junshan Zhang
- Abstract要約: マルチエージェントオンラインメタラーニングフレームワークを提案し、同等の2レベルのネストオンライン凸最適化(OCO)問題としてキャストする。
エージェントタスク平均的後悔の上限を特徴づけることで、マルチエージェントオンラインメタラーニングの性能は、限られた通信によるメタモデル更新において、エージェントが分散ネットワークレベルのOCOからどれだけの恩恵を受けられるかに大きく依存していることを示す。
我々は、最適なシングルエージェント後悔$O(sqrtT)$上の$sqrt1/N$の速度アップの要因が$の後に示す。
- 参考スコア(独自算出の注目度): 24.647993999787992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online meta-learning is emerging as an enabling technique for achieving edge
intelligence in the IoT ecosystem. Nevertheless, to learn a good meta-model for
within-task fast adaptation, a single agent alone has to learn over many tasks,
and this is the so-called 'cold-start' problem. Observing that in a multi-agent
network the learning tasks across different agents often share some model
similarity, we ask the following fundamental question: "Is it possible to
accelerate the online meta-learning across agents via limited communication and
if yes how much benefit can be achieved? " To answer this question, we propose
a multi-agent online meta-learning framework and cast it as an equivalent
two-level nested online convex optimization (OCO) problem. By characterizing
the upper bound of the agent-task-averaged regret, we show that the performance
of multi-agent online meta-learning depends heavily on how much an agent can
benefit from the distributed network-level OCO for meta-model updates via
limited communication, which however is not well understood. To tackle this
challenge, we devise a distributed online gradient descent algorithm with
gradient tracking where each agent tracks the global gradient using only one
communication step with its neighbors per iteration, and it results in an
average regret $O(\sqrt{T/N})$ per agent, indicating that a factor of
$\sqrt{1/N}$ speedup over the optimal single-agent regret $O(\sqrt{T})$ after
$T$ iterations, where $N$ is the number of agents. Building on this sharp
performance speedup, we next develop a multi-agent online meta-learning
algorithm and show that it can achieve the optimal task-average regret at a
faster rate of $O(1/\sqrt{NT})$ via limited communication, compared to
single-agent online meta-learning. Extensive experiments corroborate the
theoretic results.
- Abstract(参考訳): IoTエコシステムにおけるエッジインテリジェンスの実現を可能にする技術として,オンラインメタ学習が登場している。
それでも、タスク内高速適応のための優れたメタモデルを学ぶには、単一のエージェントだけで多くのタスクを学習する必要がある。
マルチエージェントネットワークにおいて、異なるエージェント間の学習タスクがモデル類似性を共有することが多いことを観察するため、我々は、以下の根本的な疑問に答える:「限られたコミュニケーションと、どの程度の利益が達成できるかどうかによって、エージェント間のオンラインメタラーニングを加速することは可能か?
そこで本研究では,マルチエージェントオンラインメタラーニングフレームワークを提案し,それと同等の2レベルネスト型オンライン凸最適化(oco)問題として位置づける。
エージェントタスク平均的後悔の上限を特徴づけることで、マルチエージェントオンラインメタ学習の性能は、限られた通信によるメタモデル更新において、エージェントが分散ネットワークレベルのOCOからどれだけ恩恵を受けられるかに大きく依存することを示したが、よく理解されていない。
この課題に取り組むために、我々は分散オンライン勾配降下アルゴリズムを考案し、各エージェントが1イテレーションあたり1回の通信ステップだけを使用してグローバル勾配を追跡し、その結果、エージェントあたりの平均後悔額$o(\sqrt{t/n})$が、最適なシングルエージェントの後悔額$o(\sqrt{t})$が、t$イテレーションの後に$n$がエージェント数であることを示す。
この急激な性能向上を基盤として,マルチエージェントのオンラインメタ学習アルゴリズムを開発し,単一エージェントのオンラインメタ学習と比較して,O(1/\sqrt{NT})$の速さで最適なタスク平均後悔を達成可能であることを示す。
広範な実験は理論結果を裏付ける。
関連論文リスト
- Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Provably Efficient Multi-Agent Reinforcement Learning with Fully
Decentralized Communication [3.5450828190071655]
分散探索は強化学習におけるサンプリングの複雑さを低減する。
各エージェントが分散メッセージパスプロトコルを使用すると,グループ性能が大幅に向上することを示す。
グループ学習手法により多くのエージェントと情報共有を組み込むことで、最適ポリシーへの収束が加速することを示す。
論文 参考訳(メタデータ) (2021-10-14T14:27:27Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。