論文の概要: Distributed Value Decomposition Networks with Networked Agents
- arxiv url: http://arxiv.org/abs/2502.07635v1
- Date: Tue, 11 Feb 2025 15:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:32.891667
- Title: Distributed Value Decomposition Networks with Networked Agents
- Title(参考訳): ネットワークエージェントを用いた分散値分解ネットワーク
- Authors: Guilherme S. Varela, Alberto Sardinha, Francisco S. Melo,
- Abstract要約: エージェントワイズQ関数に分解する結合Q関数を生成する分散値分解ネットワーク(DVDN)を提案する。
DVDNは、共有目的を局所的に推定することで、集中的なトレーニングの必要性を克服する。
実証的に、両アルゴリズムは通信中の情報損失にもかかわらず、値分解ネットワークの性能を近似する。
- 参考スコア(独自算出の注目度): 3.8779763612314633
- License:
- Abstract: We investigate the problem of distributed training under partial observability, whereby cooperative multi-agent reinforcement learning agents (MARL) maximize the expected cumulative joint reward. We propose distributed value decomposition networks (DVDN) that generate a joint Q-function that factorizes into agent-wise Q-functions. Whereas the original value decomposition networks rely on centralized training, our approach is suitable for domains where centralized training is not possible and agents must learn by interacting with the physical environment in a decentralized manner while communicating with their peers. DVDN overcomes the need for centralized training by locally estimating the shared objective. We contribute with two innovative algorithms, DVDN and DVDN (GT), for the heterogeneous and homogeneous agents settings respectively. Empirically, both algorithms approximate the performance of value decomposition networks, in spite of the information loss during communication, as demonstrated in ten MARL tasks in three standard environments.
- Abstract(参考訳): 部分観測可能性下での分散トレーニングの問題点を考察し,協調型マルチエージェント強化学習エージェント(MARL)が期待される累積的共同報酬を最大化することを示した。
エージェントワイズQ関数に分解する結合Q関数を生成する分散値分解ネットワーク(DVDN)を提案する。
従来の価値分解ネットワークは集中型トレーニングに依存していたが、我々のアプローチは集中型トレーニングが不可能な領域に適しており、エージェントは同僚とコミュニケーションしながら、分散化された方法で物理的環境と対話して学習する必要がある。
DVDNは、共有目的を局所的に推定することで、集中的なトレーニングの必要性を克服する。
異種エージェントと同種エージェントの設定に対して,DVDNとDVDN(GT)という2つの革新的なアルゴリズムをそれぞれ提案する。
両アルゴリズムは、3つの標準環境における10のMARLタスクで示されるように、通信中の情報損失にもかかわらず、価値分解ネットワークの性能を実証的に近似する。
関連論文リスト
- MAGNNET: Multi-Agent Graph Neural Network-based Efficient Task Allocation for Autonomous Vehicles with Deep Reinforcement Learning [2.5022287664959446]
本稿では,グラフニューラルネットワーク(GNN)を一元的トレーニングと分散実行(CTDE)パラダイムに統合する新しいフレームワークを提案する。
本手法により,無人航空機 (UAV) と無人地上車両 (UGV) は, 中央調整を必要とせず, 効率よくタスクを割り当てることができる。
論文 参考訳(メタデータ) (2025-02-04T13:29:56Z) - Distributed Autonomous Swarm Formation for Dynamic Network Bridging [40.27919181139919]
離散化された部分観測可能なマルコフ決定過程(Dec-POMDP)における動的ネットワークブリッジ問題について定式化する。
グラフ畳み込み強化学習(DGN)に基づく問題に対するマルチエージェント強化学習(MARL)アプローチを提案する。
提案手法はシミュレーション環境で評価し,将来性を示す集中型ベースラインと比較した。
論文 参考訳(メタデータ) (2024-04-02T01:45:03Z) - The challenge of redundancy on multi-agent value factorisation [12.63182277116319]
協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは集中型トレーニングと分散実行の利用である。
そこで我々は,LRP(Layerwise Relevance propagation)を利用して,結合値関数の学習と局所報酬信号の生成を分離する手法を提案する。
VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。
論文 参考訳(メタデータ) (2023-03-28T20:41:12Z) - Collaborative Mean Estimation over Intermittently Connected Networks
with Peer-To-Peer Privacy [86.61829236732744]
本研究は、断続接続を有するネットワーク上での分散平均推定(DME)の問題について考察する。
目標は、中央サーバの助けを借りて、分散ノード間でローカライズされたデータサンプルに関するグローバル統計を学習することだ。
ノード間のデータ共有による協調中継とプライバシー漏洩のトレードオフについて検討する。
論文 参考訳(メタデータ) (2023-02-28T19:17:03Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Competing Adaptive Networks [56.56653763124104]
適応エージェントのチーム間での分散競争のためのアルゴリズムを開発する。
本稿では,生成的対向ニューラルネットワークの分散学習への応用について述べる。
論文 参考訳(メタデータ) (2021-03-29T14:42:15Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。