Fugu-MT 論文翻訳(概要): Regret Bounds for Decentralized Learning in Cooperative Multi-Agent Dynamical Systems

論文の概要: Regret Bounds for Decentralized Learning in Cooperative Multi-Agent Dynamical Systems

arxiv url: http://arxiv.org/abs/2001.10122v1
Date: Mon, 27 Jan 2020 23:37:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 07:57:39.694238
Title: Regret Bounds for Decentralized Learning in Cooperative Multi-Agent Dynamical Systems
Title（参考訳）: 協調型マルチエージェント力学系における分散学習に対する後悔限度
Authors: Seyed Mohammad Asghari, Yi Ouyang, and Ashutosh Nayyar
Abstract要約: マルチエージェント強化学習(MARL)における二次解析の課題補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
参考スコア（独自算出の注目度）: 3.9599054392856488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Regret analysis is challenging in Multi-Agent Reinforcement Learning (MARL) primarily due to the dynamical environments and the decentralized information among agents. We attempt to solve this challenge in the context of decentralized learning in multi-agent linear-quadratic (LQ) dynamical systems. We begin with a simple setup consisting of two agents and two dynamically decoupled stochastic linear systems, each system controlled by an agent. The systems are coupled through a quadratic cost function. When both systems' dynamics are unknown and there is no communication among the agents, we show that no learning policy can generate sub-linear in $T$ regret, where $T$ is the time horizon. When only one system's dynamics are unknown and there is one-directional communication from the agent controlling the unknown system to the other agent, we propose a MARL algorithm based on the construction of an auxiliary single-agent LQ problem. The auxiliary single-agent problem in the proposed MARL algorithm serves as an implicit coordination mechanism among the two learning agents. This allows the agents to achieve a regret within $O(\sqrt{T})$ of the regret of the auxiliary single-agent problem. Consequently, using existing results for single-agent LQ regret, our algorithm provides a $\tilde{O}(\sqrt{T})$ regret bound. (Here $\tilde{O}(\cdot)$ hides constants and logarithmic factors). Our numerical experiments indicate that this bound is matched in practice. From the two-agent problem, we extend our results to multi-agent LQ systems with certain communication patterns.
Abstract（参考訳）: MARL(Multi-Agent Reinforcement Learning)では,エージェント間の動的環境と分散情報により回帰分析が困難である。マルチエージェント線形量子力学系における分散学習の文脈でこの課題を解決しようとする。まず,エージェントによって制御される2つのエージェントと2つの動的分離確率線形システムからなる簡単なセットアップから始める。システムは2次コスト関数を介して結合される。両方のシステムのダイナミクスが不明で、エージェント間のコミュニケーションが存在しない場合、学習ポリシーが$t$でサブリニアを生成することができないことを示し、ここで$t$がタイムホライズンであることを示す。 1つのシステムのダイナミクスが未知であり、未知のシステムを制御するエージェントから他のエージェントへの一方向通信が存在する場合、補助的な単一エージェントLQ問題の構築に基づくMARLアルゴリズムを提案する。 MARLアルゴリズムの補助的な単一エージェント問題は、2つの学習エージェント間の暗黙の協調機構として機能する。これにより、エージェントは補助単エージェント問題の後悔の$O(\sqrt{T})$内で後悔を達成することができる。したがって、単一エージェントLQ後悔に対する既存の結果を用いて、我々のアルゴリズムは$\tilde{O}(\sqrt{T})$ regret boundを提供する。 (ここで$\tilde{o}(\cdot)$定数と対数因子を隠蔽する)。我々の数値実験は、この境界が実際に一致することを示している。 2エージェント問題から,特定の通信パターンを持つマルチエージェントLQシステムに結果を拡張する。

関連論文リスト

Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。 System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文参考訳（メタデータ） (2025-02-18T03:20:50Z)
On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文参考訳（メタデータ） (2024-05-09T17:40:09Z)
Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-29T23:38:28Z)
A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文参考訳（メタデータ） (2023-10-03T16:05:48Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Decentralized Cooperative Multi-Agent Reinforcement Learning with Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文参考訳（メタデータ） (2021-10-12T02:45:12Z)
Regret Analysis of Distributed Online LQR Control for Unknown LTI Systems [8.832969171530056]
線形時間不変(LTI)系に対する分散オンライン線形2次レギュレータ(LQR)問題について研究する。本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。我々は,提案アルゴリズムが$tildeO(T2/3)$をスケールしていることを証明する。
論文参考訳（メタデータ） (2021-05-15T23:02:58Z)
Accelerating Distributed Online Meta-Learning via Multi-Agent Collaboration under Limited Communication [24.647993999787992]
マルチエージェントオンラインメタラーニングフレームワークを提案し、同等の2レベルのネストオンライン凸最適化(OCO)問題としてキャストする。エージェントタスク平均的後悔の上限を特徴づけることで、マルチエージェントオンラインメタラーニングの性能は、限られた通信によるメタモデル更新において、エージェントが分散ネットワークレベルのOCOからどれだけの恩恵を受けられるかに大きく依存していることを示す。我々は、最適なシングルエージェント後悔$O(sqrtT)$上の$sqrt1/N$の速度アップの要因が$の後に示す。
論文参考訳（メタデータ） (2020-12-15T23:08:36Z)
Thompson sampling for linear quadratic mean-field teams [3.957353452014781]
エージェント間で動的およびコストが結合される未知のマルチエージェント線形二次系(LQ)の最適制御について検討する。我々は,システムモデルの構造を活かした新しいトンプソンサンプリング学習アルゴリズムを提案し,時間軸に異なる種類のエージェントを持つシステムに対してベイズが提案したアルゴリズムを,エージェントの総数に関係なく$T$ is $tildemathcalO big( |M|1.5 sqrtT big)$で後悔していることを示す。
論文参考訳（メタデータ） (2020-11-09T19:07:32Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。