Fugu-MT 論文翻訳(概要): Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning

論文の概要: Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2102.06042v1
Date: Wed, 10 Feb 2021 01:58:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-12 14:23:22.672089
Title: Modeling the Interaction between Agents in Cooperative Multi-Agent Reinforcement Learning
Title（参考訳）: 協調マルチエージェント強化学習におけるエージェント間の相互作用のモデル化
Authors: Xiaoteng Ma, Yiqin Yang, Chenghao Li, Yiwen Lu, Qianchuan Zhao, Yang Jun
Abstract要約: 対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。 IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
参考スコア（独自算出の注目度）: 2.9360071145551068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Value-based methods of multi-agent reinforcement learning (MARL), especially the value decomposition methods, have been demonstrated on a range of challenging cooperative tasks. However, current methods pay little attention to the interaction between agents, which is essential to teamwork in games or real life. This limits the efficiency of value-based MARL algorithms in the two aspects: collaborative exploration and value function estimation. In this paper, we propose a novel cooperative MARL algorithm named as interactive actor-critic~(IAC), which models the interaction of agents from the perspectives of policy and value function. On the policy side, a multi-agent joint stochastic policy is introduced by adopting a collaborative exploration module, which is trained by maximizing the entropy-regularized expected return. On the value side, we use the shared attention mechanism to estimate the value function of each agent, which takes the impact of the teammates into consideration. At the implementation level, we extend the value decomposition methods to continuous control tasks and evaluate IAC on benchmark tasks including classic control and multi-agent particle environments. Experimental results indicate that our method outperforms the state-of-the-art approaches and achieves better performance in terms of cooperation.
Abstract（参考訳）: 多エージェント強化学習(MARL)のバリューベース手法,特に値分解法は,様々な課題に対して実証されてきた。しかし、現在の手法は、ゲームや実生活におけるチームワークに不可欠なエージェント間の相互作用にはほとんど注意を払わない。これは、協調探索と値関数推定という2つの面で、値ベースのMARLアルゴリズムの効率を制限します。本論文では,エージェントの相互作用を政策と価値関数の観点からモデル化する,対話型アクタークリティカル(IAC)という新たな協調的MARLアルゴリズムを提案する。政策面では、エントロピー規則化された期待リターンを最大化する共同探索モジュールを採用することで、マルチエージェント共同確率ポリシーを導入する。価値面では、チームメイトの影響を考慮して、各エージェントの価値関数を推定するために共通の注意メカニズムを使用します。実装レベルでは、値分解法を連続制御タスクに拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。実験結果から,本手法は最先端の手法よりも優れ,協調的な手法による性能の向上が期待できる。

関連論文リスト

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文参考訳（メタデータ） (2026-02-28T16:25:22Z)
Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings [10.36125908359289]
モデルに基づくマルチエージェント強化学習フレームワークを提案する。我々は変分自動エンコーダで訓練された世界モデルを設計し、状態-作用学習埋め込みを用いてモデルを増強する。想像された軌道とSALEに基づく行動値とを結合することにより、エージェントは彼らの選択が集団的な結果にどのように影響するかをより深く理解する。
論文参考訳（メタデータ） (2026-02-13T01:57:21Z)
Understanding Action Effects through Instrumental Empowerment in Multi-Agent Reinforcement Learning [39.74025439412935]
本研究は,政策分布の分析のみでエージェント行動に対する有意義な洞察を抽出できるかどうかを考察する。知的エージェントが収束器質的価値を追求する傾向にある現象にインスパイアされた我々は、ICV(Intended Cooperation Values)を導入する。 ICVは、その決定(不確実性)と選好の整合性を評価することで、チームメイトの方針に対するエージェントの作用を測定する。
論文参考訳（メタデータ） (2025-08-21T15:35:59Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL with Continuous Action Domains [0.0]
本稿では,Q-Functionalsのアイデアに触発された新しいマルチエージェント値ベースアルゴリズム,Mixed Q-Functionals(MQF)を提案する。本アルゴリズムは,アクション値の混合によりエージェント間の協調を促進する。実験の結果、MQFはDeep Deterministic Policy Gradientの4つの変種より優れていることがわかった。
論文参考訳（メタデータ） (2024-02-12T16:21:50Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文参考訳（メタデータ） (2023-12-15T05:09:32Z)
Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。 MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2023-06-02T21:22:27Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
A Variational Approach to Mutual Information-Based Coordination for Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-01T12:21:30Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-06-01T04:58:52Z)
Cooperative and Competitive Biases for Multi-Agent Reinforcement Learning [12.676356746752893]
マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
論文参考訳（メタデータ） (2021-01-18T05:52:22Z)
Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。本研究では,近似的に同期する利点推定を提案する。
論文参考訳（メタデータ） (2020-12-07T07:29:19Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。