論文の概要: Multi-level Advantage Credit Assignment for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.06836v1
- Date: Sat, 09 Aug 2025 05:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.573204
- Title: Multi-level Advantage Credit Assignment for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のためのマルチレベルアドバンテージクレジットアサインメント
- Authors: Xutong Zhao, Yaqi Xie,
- Abstract要約: クレジットの割り当てには、共有報酬に対する各エージェントの貢献を評価することが含まれる。
本研究では,報酬を得るために協力するエージェントの数として,クレジット割り当てレベルを定式化する。
異なるレベルにまたがってクレジットを推測するために、明示的な対実的推論を行うマルチレベル・アドバンテージの定式化を導入する。
- 参考スコア(独自算出の注目度): 2.3173485093942943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) aims to coordinate multiple agents to achieve a common goal. A key challenge in MARL is credit assignment, which involves assessing each agent's contribution to the shared reward. Given the diversity of tasks, agents may perform different types of coordination, with rewards attributed to diverse and often overlapping agent subsets. In this work, we formalize the credit assignment level as the number of agents cooperating to obtain a reward, and address scenarios with multiple coexisting levels. We introduce a multi-level advantage formulation that performs explicit counterfactual reasoning to infer credits across distinct levels. Our method, Multi-level Advantage Credit Assignment (MACA), captures agent contributions at multiple levels by integrating advantage functions that reason about individual, joint, and correlated actions. Utilizing an attention-based framework, MACA identifies correlated agent relationships and constructs multi-level advantages to guide policy learning. Comprehensive experiments on challenging Starcraft v1\&v2 tasks demonstrate MACA's superior performance, underscoring its efficacy in complex credit assignment scenarios.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は、共通の目標を達成するために複数のエージェントを調整することを目的としている。
MARLにおける重要な課題は、各エージェントが共有報酬に対する貢献を評価することを含む、クレジットの割り当てである。
タスクの多様性を考えると、エージェントは様々な種類の調整を行うことができ、報酬は多様でしばしば重複するエージェントサブセットに起因する。
本研究では、報酬を得るために協力するエージェントの数としてクレジット割り当てレベルを形式化し、複数の共存レベルを持つシナリオに対処する。
異なるレベルにまたがってクレジットを推測するために、明示的な対実的推論を行うマルチレベル・アドバンテージの定式化を導入する。
マルチレベルアドバンテージ・クレジット・アサインメント (MACA) は, 個人, 共同作業, 相関行動に関する利点関数を統合することで, 複数のレベルのエージェントのコントリビューションを捕捉する。
注意に基づくフレームワークを利用することで、MACAは関連するエージェント関係を特定し、ポリシー学習を導くためのマルチレベルアドバンテージを構築する。
スタークラフト v1\&v2 タスクへの挑戦に関する総合的な実験は、MACA の優れた性能を示し、複雑なクレジット割り当てシナリオにおける有効性を裏付けている。
関連論文リスト
- Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。