Fugu-MT 論文翻訳(概要): Nucleolus Credit Assignment for Effective Coalitions in Multi-agent Reinforcement Learning

論文の概要: Nucleolus Credit Assignment for Effective Coalitions in Multi-agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2503.00372v1
Date: Sat, 01 Mar 2025 07:01:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.367275
Title: Nucleolus Credit Assignment for Effective Coalitions in Multi-agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における効果的な連携のためのNucleolus Credit Assignment
Authors: Yugu Li, Zehong Cao, Jianglin Qiao, Siyi Hu,
Abstract要約: 協調型マルチエージェント強化学習(MARL)では、エージェントは一般的に、複合タスクに取り組むためのクレジット割り当てに基づいて、単一の大連立を形成する。本稿では,協調ゲーム理論に基づくヌクレオルスに基づくクレジット割り当てを提案し,エージェントを小さな連立に自律的に分割することを可能にする。
参考スコア（独自算出の注目度）: 13.220552085613292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In cooperative multi-agent reinforcement learning (MARL), agents typically form a single grand coalition based on credit assignment to tackle a composite task, often resulting in suboptimal performance. This paper proposed a nucleolus-based credit assignment grounded in cooperative game theory, enabling the autonomous partitioning of agents into multiple small coalitions that can effectively identify and complete subtasks within a larger composite task. Specifically, our designed nucleolus Q-learning could assign fair credits to each agent, and the nucleolus Q-operator provides theoretical guarantees with interpretability for both learning convergence and the stability of the formed small coalitions. Through experiments on Predator-Prey and StarCraft scenarios across varying difficulty levels, our approach demonstrated the emergence of multiple effective coalitions during MARL training, leading to faster learning and superior performance in terms of win rate and cumulative rewards especially in hard and super-hard environments, compared to four baseline methods. Our nucleolus-based credit assignment showed the promise for complex composite tasks requiring effective subteams of agents.
Abstract（参考訳）: 協調型マルチエージェント強化学習(MARL)では、エージェントは一般的に、複合タスクに取り組むためのクレジット割り当てに基づいて単一の大連立を形成する。本稿では, 協調ゲーム理論を基礎として, エージェントを複数の小さな連帯に自律的に分割し, より大規模な複合タスクにおいて, サブタスクを効果的に識別し, 完了させることができるヌクレオラスベースのクレジット割り当てを提案する。具体的には、設計したヌクレオルスQ-ラーニングは各エージェントに公平なクレジットを割り当てることができ、ヌクレオルスQ-オペレータは、学習収束と形成された小さな連立の安定性の両方を解釈可能な理論的保証を提供する。様々な難易度におけるPredator-PreyとStarCraftのシナリオの実験を通じて、MARLトレーニング中に複数の効果的な連立が出現し、特に硬質および超硬質環境での勝利率と累積報酬の点において、より高速な学習と優れたパフォーマンスを実現した。クレオラスをベースとしたクレジット割り当ては, エージェントの効果的なサブチームを必要とする複雑な複合タスクの可能性を示唆した。

関連論文リスト

CORA: Coalitional Rational Advantage Decomposition for Multi-Agent Policy Gradients [1.1592964544667297]
本研究は、協調型マルチエージェント強化学習(MARL)における信用割当問題に焦点をあてる。我々は、Coalitional Rational Advantage Decomposition (CORA)と呼ばれる信用割当手法を提案する。行列ゲーム、ディファレンシャルゲーム、マルチエージェントコラボレーションベンチマークの実験は、CORAが強いベースラインより優れていることを示した。
論文参考訳（メタデータ） (2025-06-03T08:04:43Z)
Multi-Agent Collaboration via Evolving Orchestration [61.93162413517026]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。 LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-05-26T07:02:17Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文参考訳（メタデータ） (2023-02-14T07:23:59Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)
HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文参考訳（メタデータ） (2021-10-14T10:43:47Z)
Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2021-06-04T00:55:03Z)
Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文参考訳（メタデータ） (2021-06-01T07:38:34Z)
Structured Diversification Emergence via Reinforced Organization Control and Hierarchical Consensus Learning [48.525944995851965]
組織制御の強化と階層的コンセンサス学習に基づく構造的多様化型MARLフレームワーク scRochico を提案する。 scRochicoは、探索効率と協力強度の観点から、現在のSOTAアルゴリズムよりもはるかに優れている。
論文参考訳（メタデータ） (2021-02-09T11:46:12Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)
Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文参考訳（メタデータ） (2020-07-03T23:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。