Fugu-MT 論文翻訳(概要): The challenge of redundancy on multi-agent value factorisation

論文の概要: The challenge of redundancy on multi-agent value factorisation

arxiv url: http://arxiv.org/abs/2304.00009v1
Date: Tue, 28 Mar 2023 20:41:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-09 05:43:58.310341
Title: The challenge of redundancy on multi-agent value factorisation
Title（参考訳）: 多エージェント値分解における冗長性の課題
Authors: Siddarth Singh and Benjamin Rosman
Abstract要約: 協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは集中型トレーニングと分散実行の利用である。そこで我々は,LRP(Layerwise Relevance propagation)を利用して,結合値関数の学習と局所報酬信号の生成を分離する手法を提案する。 VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。
参考スコア（独自算出の注目度）: 12.63182277116319
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the field of cooperative multi-agent reinforcement learning (MARL), the standard paradigm is the use of centralised training and decentralised execution where a central critic conditions the policies of the cooperative agents based on a central state. It has been shown, that in cases with large numbers of redundant agents these methods become less effective. In a more general case, there is likely to be a larger number of agents in an environment than is required to solve the task. These redundant agents reduce performance by enlarging the dimensionality of both the state space and and increasing the size of the joint policy used to solve the environment. We propose leveraging layerwise relevance propagation (LRP) to instead separate the learning of the joint value function and generation of local reward signals and create a new MARL algorithm: relevance decomposition network (RDN). We find that although the performance of both baselines VDN and Qmix degrades with the number of redundant agents, RDN is unaffected.
Abstract（参考訳）: 協調型マルチエージェント強化学習(MARL)の分野において、標準パラダイムは、中央批判者が中央状態に基づいて協調エージェントの政策を条件付ける集中型トレーニングと分散実行の使用である。多くの冗長エージェントの場合、これらのメソッドは効果が低下することが示されている。より一般的な場合、タスクの解決に必要なものよりも多くのエージェントが環境に存在している可能性が高い。これらの冗長なエージェントは、状態空間の両次元を拡大し、環境解決に使用される共同ポリシーのサイズを増やすことで性能を低下させる。本稿では,結合値関数の学習と局所報酬信号の生成を分離し,新しいMARLアルゴリズムであるRelevance decomposition Network(RDN)を作成するために,レイヤワイズ関連伝搬(LRP)を活用することを提案する。 VDNとQmixの両方のベースラインの性能は冗長エージェントの数によって低下するが、RDNは影響を受けない。

関連論文リスト

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文参考訳（メタデータ） (2026-02-28T16:25:22Z)
Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies [51.24079409973799]
拡散に基づく生成モデルは、オンラインマルチエージェント強化学習(MARL)のニーズを満たすために適切に配置されている我々は、アンダーライン拡散ポリシーを用いて、最初のアンダーラインオフラインアンダーラインMARLフレームワークを提案する。私たちのキーとなるイノベーションは、拡張された関節のエントロピーを最大化する、緩和された政策目標です。
論文参考訳（メタデータ） (2026-02-20T15:38:02Z)
Multi-agent In-context Coordination via Decentralized Memory Retrieval [39.106914463842685]
多様なデータセットに基づいてトレーニングされた大規模なトランスフォーマーモデルは、これまで目に見えなかったタスクにおいて、印象的な数ショットのパフォーマンスを誇示している。 MARL(Multi-Agent Reinforcement Learning)では、エージェントが共通の目標に向かって調整しなければならない。高速適応によるコーディネーション向上を目的とした新しい手法である分散メモリ検索(MAICC)によるマルチエージェントインコンテキストコーディネーションを提案する。
論文参考訳（メタデータ） (2025-11-13T07:08:31Z)
Structured Cooperative Multi-Agent Reinforcement Learning: a Bayesian Network Perspective [1.2515675707300356]
本研究では, モデルレス強化学習において, エージェント間結合における構造を有効活用するための体系的アプローチを提案する。 P-DTDEスキームに基づくマルチエージェントポリシー勾配定理を導出し,スケーラブルなアクター・クリティック・アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-10-11T00:29:55Z)
Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文参考訳（メタデータ） (2025-09-18T16:03:50Z)
Distributed Value Decomposition Networks with Networked Agents [3.8779763612314633]
エージェントワイズQ関数に分解する結合Q関数を生成する分散値分解ネットワーク(DVDN)を提案する。 DVDNは、共有目的を局所的に推定することで、集中的なトレーニングの必要性を克服する。実証的に、両アルゴリズムは通信中の情報損失にもかかわらず、値分解ネットワークの性能を近似する。
論文参考訳（メタデータ） (2025-02-11T15:23:05Z)
Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-14T06:17:33Z)
Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文参考訳（メタデータ） (2024-10-03T14:25:02Z)
ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。 MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文参考訳（メタデータ） (2024-10-02T18:56:10Z)
Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-12T21:38:40Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
Residual Q-Networks for Value Function Factorizing in Multi-Agent Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。 RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文参考訳（メタデータ） (2022-05-30T16:56:06Z)
Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文参考訳（メタデータ） (2021-11-23T18:24:47Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文参考訳（メタデータ） (2020-03-19T16:51:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。