論文の概要: Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems
- arxiv url: http://arxiv.org/abs/2001.10122v1
- Date: Mon, 27 Jan 2020 23:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:57:39.694238
- Title: Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems
- Title(参考訳): 協調型マルチエージェント力学系における分散学習に対する後悔限度
- Authors: Seyed Mohammad Asghari, Yi Ouyang, and Ashutosh Nayyar
- Abstract要約: マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
- 参考スコア(独自算出の注目度): 3.9599054392856488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regret analysis is challenging in Multi-Agent Reinforcement Learning (MARL)
primarily due to the dynamical environments and the decentralized information
among agents. We attempt to solve this challenge in the context of
decentralized learning in multi-agent linear-quadratic (LQ) dynamical systems.
We begin with a simple setup consisting of two agents and two dynamically
decoupled stochastic linear systems, each system controlled by an agent. The
systems are coupled through a quadratic cost function. When both systems'
dynamics are unknown and there is no communication among the agents, we show
that no learning policy can generate sub-linear in $T$ regret, where $T$ is the
time horizon. When only one system's dynamics are unknown and there is
one-directional communication from the agent controlling the unknown system to
the other agent, we propose a MARL algorithm based on the construction of an
auxiliary single-agent LQ problem. The auxiliary single-agent problem in the
proposed MARL algorithm serves as an implicit coordination mechanism among the
two learning agents. This allows the agents to achieve a regret within
$O(\sqrt{T})$ of the regret of the auxiliary single-agent problem.
Consequently, using existing results for single-agent LQ regret, our algorithm
provides a $\tilde{O}(\sqrt{T})$ regret bound. (Here $\tilde{O}(\cdot)$ hides
constants and logarithmic factors). Our numerical experiments indicate that
this bound is matched in practice. From the two-agent problem, we extend our
results to multi-agent LQ systems with certain communication patterns.
- Abstract(参考訳): MARL(Multi-Agent Reinforcement Learning)では,エージェント間の動的環境と分散情報により回帰分析が困難である。
マルチエージェント線形量子力学系における分散学習の文脈でこの課題を解決しようとする。
まず,エージェントによって制御される2つのエージェントと2つの動的分離確率線形システムからなる簡単なセットアップから始める。
システムは2次コスト関数を介して結合される。
両方のシステムのダイナミクスが不明で、エージェント間のコミュニケーションが存在しない場合、学習ポリシーが$t$でサブリニアを生成することができないことを示し、ここで$t$がタイムホライズンであることを示す。
1つのシステムのダイナミクスが未知であり、未知のシステムを制御するエージェントから他のエージェントへの一方向通信が存在する場合、補助的な単一エージェントLQ問題の構築に基づくMARLアルゴリズムを提案する。
MARLアルゴリズムの補助的な単一エージェント問題は、2つの学習エージェント間の暗黙の協調機構として機能する。
これにより、エージェントは補助単エージェント問題の後悔の$O(\sqrt{T})$内で後悔を達成することができる。
したがって、単一エージェントLQ後悔に対する既存の結果を用いて、我々のアルゴリズムは$\tilde{O}(\sqrt{T})$ regret boundを提供する。
(ここで$\tilde{o}(\cdot)$定数と対数因子を隠蔽する)。
我々の数値実験は、この境界が実際に一致することを示している。
2エージェント問題から,特定の通信パターンを持つマルチエージェントLQシステムに結果を拡張する。
関連論文リスト
- On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。
我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。
各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Regret Analysis of Distributed Online LQR Control for Unknown LTI
Systems [8.832969171530056]
線形時間不変(LTI)系に対する分散オンライン線形2次レギュレータ(LQR)問題について研究する。
本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。
我々は,提案アルゴリズムが$tildeO(T2/3)$をスケールしていることを証明する。
論文 参考訳(メタデータ) (2021-05-15T23:02:58Z) - Accelerating Distributed Online Meta-Learning via Multi-Agent
Collaboration under Limited Communication [24.647993999787992]
マルチエージェントオンラインメタラーニングフレームワークを提案し、同等の2レベルのネストオンライン凸最適化(OCO)問題としてキャストする。
エージェントタスク平均的後悔の上限を特徴づけることで、マルチエージェントオンラインメタラーニングの性能は、限られた通信によるメタモデル更新において、エージェントが分散ネットワークレベルのOCOからどれだけの恩恵を受けられるかに大きく依存していることを示す。
我々は、最適なシングルエージェント後悔$O(sqrtT)$上の$sqrt1/N$の速度アップの要因が$の後に示す。
論文 参考訳(メタデータ) (2020-12-15T23:08:36Z) - Thompson sampling for linear quadratic mean-field teams [3.957353452014781]
エージェント間で動的およびコストが結合される未知のマルチエージェント線形二次系(LQ)の最適制御について検討する。
我々は,システムモデルの構造を活かした新しいトンプソンサンプリング学習アルゴリズムを提案し,時間軸に異なる種類のエージェントを持つシステムに対してベイズが提案したアルゴリズムを,エージェントの総数に関係なく$T$ is $tildemathcalO big( |M|1.5 sqrtT big)$で後悔していることを示す。
論文 参考訳(メタデータ) (2020-11-09T19:07:32Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。