Fugu-MT 論文翻訳(概要): Decentralized Cooperation in Heterogeneous Multi-Agent Reinforcement Learning via Graph Neural Network-Based Intrinsic Motivation

論文の概要: Decentralized Cooperation in Heterogeneous Multi-Agent Reinforcement Learning via Graph Neural Network-Based Intrinsic Motivation

arxiv url: http://arxiv.org/abs/2408.06503v1
Date: Mon, 12 Aug 2024 21:38:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 19:17:34.773875
Title: Decentralized Cooperation in Heterogeneous Multi-Agent Reinforcement Learning via Graph Neural Network-Based Intrinsic Motivation
Title（参考訳）: グラフニューラルネットワークに基づく固有モチベーションによる不均一なマルチエージェント強化学習における分散協調
Authors: Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan,
Abstract要約: MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 1.179778723980276
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multi-agent Reinforcement Learning (MARL) is emerging as a key framework for various sequential decision-making and control tasks. Unlike their single-agent counterparts, multi-agent systems necessitate successful cooperation among the agents. The deployment of these systems in real-world scenarios often requires decentralized training, a diverse set of agents, and learning from infrequent environmental reward signals. These challenges become more pronounced under partial observability and the lack of prior knowledge about agent heterogeneity. While notable studies use intrinsic motivation (IM) to address reward sparsity or cooperation in decentralized settings, those dealing with heterogeneity typically assume centralized training, parameter sharing, and agent indexing. To overcome these limitations, we propose the CoHet algorithm, which utilizes a novel Graph Neural Network (GNN) based intrinsic motivation to facilitate the learning of heterogeneous agent policies in decentralized settings, under the challenges of partial observability and reward sparsity. Evaluation of CoHet in the Multi-agent Particle Environment (MPE) and Vectorized Multi-Agent Simulator (VMAS) benchmarks demonstrates superior performance compared to the state-of-the-art in a range of cooperative multi-agent scenarios. Our research is supplemented by an analysis of the impact of the agent dynamics model on the intrinsic motivation module, insights into the performance of different CoHet variants, and its robustness to an increasing number of heterogeneous agents.
Abstract（参考訳）: MARL(Multi-agent Reinforcement Learning)は、様々な意思決定や制御タスクの鍵となるフレームワークである。シングルエージェントとは異なり、マルチエージェントシステムはエージェント間の協力を成功させる必要がある。これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。これらの課題は、部分観測可能性やエージェントの不均一性に関する事前知識の欠如の下でより顕著になる。特筆すべき研究は、報酬の空間性や分散された環境における協調に固有のモチベーション(IM)を用いるが、不均一性を扱う人は典型的には集中トレーニング、パラメータ共有、エージェントインデクシングを前提としている。このような制約を克服するために,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用したCoHetアルゴリズムを提案する。マルチエージェント粒子環境(MPE)およびベクトル化マルチエージェントシミュレータ(VMAS)ベンチマークにおけるCoHetの評価は,協調型マルチエージェントシナリオにおける最先端技術と比較して,優れた性能を示す。本研究は,エージェント・ダイナミクス・モデルが内在的モチベーション・モジュールに与える影響,異なるCoHet変異体の性能に関する知見,および多種多種多様なエージェントに対するロバスト性について分析した。

関連論文リスト

Beyond Task Performance: A Metric-Based Analysis of Sequential Cooperation in Heterogeneous Multi-Agent Destructive Foraging [41.439643274006364]
本研究は異種マルチエージェントシステムにおける協調分析の問題に対処する。提案した指標群は,協調の多段階的特徴付けを共同で提供する3つの主要なカテゴリに分類される。不均一な自律走行車を用いた動的水面洗浄にインスパイアされた、現実的な破壊的な捕食シナリオで検証されている。
論文参考訳（メタデータ） (2026-02-11T09:39:24Z)
MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2) 本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文参考訳（メタデータ） (2026-02-08T07:28:44Z)
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.78748457530718]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文参考訳（メタデータ） (2025-10-09T17:50:26Z)
Multi-Agent Collaboration via Evolving Orchestration [61.93162413517026]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。 LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-05-26T07:02:17Z)
Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [5.120446836495469]
我々は,マルチエージェントLLMシステムのための診断テストベッドとして,社会心理学からの隠れプロファイルパラダイムを紹介した。エージェント間で重要な情報を非対称に分配することにより、エージェント間ダイナミクスが集団的推論をどのように支援するか、あるいは妨げるかを明らかにする。協調エージェントは集団的設定において過度に協調する傾向にあるが,矛盾が集団収束を損なうことが示唆された。
論文参考訳（メタデータ） (2025-05-15T19:22:54Z)
Emergence of Roles in Robotic Teams with Model Sharing and Limited Communication [0.0]
本稿では,単一エージェントに学習を集中させるマルチエージェント捕食システムにおける強化学習戦略を提案する。このアプローチは、MARLや集中学習モデルのようなアプローチと比較して、計算とエネルギーの需要を大幅に削減することを目的としている。
論文参考訳（メタデータ） (2025-05-01T14:05:46Z)
Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文参考訳（メタデータ） (2024-10-03T14:25:02Z)
Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文参考訳（メタデータ） (2024-02-06T13:02:00Z)
Innate-Values-driven Reinforcement Learning based Cooperative Multi-Agent Cognitive Modeling [1.8220718426493654]
本稿では,個別の選好角度から固有値強化学習アーキテクチャを提案する。異なるStarCraft Multi-Agent Challenge設定でMulti-AgentL Actor-Critic Modelを検証した。
論文参考訳（メタデータ） (2024-01-10T22:51:10Z)
Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文参考訳（メタデータ） (2023-10-11T06:09:26Z)
Effective Multi-Agent Deep Reinforcement Learning Control with Relative Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文参考訳（メタデータ） (2023-09-26T07:38:19Z)
SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。 SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文参考訳（メタデータ） (2023-07-05T23:36:33Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-06-01T04:58:52Z)
Residual Q-Networks for Value Function Factorizing in Multi-Agent Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。 RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文参考訳（メタデータ） (2022-05-30T16:56:06Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Permutation Invariant Policy Optimization for Mean-Field Multi-Agent Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文参考訳（メタデータ） (2021-05-18T04:35:41Z)
Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文参考訳（メタデータ） (2020-06-07T18:28:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。