論文の概要: Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling
- arxiv url: http://arxiv.org/abs/2606.05021v1
- Date: Wed, 03 Jun 2026 15:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.869055
- Title: Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling
- Title(参考訳): アクション推論と重要サンプリングによるマルチエージェント学習のためのMADDPGアルゴリズムの強化
- Authors: Marc Walden, Jason Liu, Shaashwath Sivakumar, Ryan Liu, Hamza Khan,
- Abstract要約: 本稿では,各エージェントが他のエージェントの意図した行動を予測できる新しいアクション推論機構を提案する。
第2に、リプレイバッファに幾何分布を用いた重要サンプリング戦略を適用し、より最新の情報的体験を優先する。
その結果,行動推論は学習安定性の向上とエージェント間協調に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 3.0203351658673387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate multi-agent deep reinforcement learning and propose two enhancements to the Multi-Agent Deep Deterministic Policy Gradient (MADDPG) algorithm. First, we introduce a novel Action Inference mechanism that enables each agent to predict other agents' intended actions, thereby improving the accuracy and stability of its own policy. Second, we apply an importance sampling strategy, using geometric distribution, in the replay buffer to prioritize more recent and informative experiences, which helps mitigate the non-stationarity inherent in multi-agent environments. We evaluate both modifications on the discrete-action Predator-Prey task provided by the PettingZoo library, a flexible Python interface for general multi-agent reinforcement learning benchmarks. Our results indicate that Action Inference is effective in improving learning stability and inter-agent cooperation and that importance sampling using geometric distribution can lead to significant improvements in exploration efficiency over standard MADDPG. Code available at https://github.com/shaashwathsivakumar/MARL_Proj
- Abstract(参考訳): マルチエージェントディープ強化学習について検討し、マルチエージェントディープ決定性ポリシー勾配(MADDPG)アルゴリズムの2つの拡張を提案する。
まず、各エージェントが他のエージェントの意図した動作を予測できるようにし、それによって各エージェントのポリシーの正確性と安定性を向上させる新しいアクション推論機構を提案する。
第2に,リプレイバッファに幾何分布を用いた重要サンプリング戦略を適用し,より最近の情報的体験を優先し,マルチエージェント環境に固有の非定常性を緩和する。
汎用マルチエージェント強化学習ベンチマークのためのフレキシブルなPythonインタフェースであるPettingZooライブラリによって提供される離散アクションPredator-Preyタスクの2つの修正について評価する。
以上の結果から,Action Inferenceは学習安定性の向上とエージェント間協調の促進に有効であり,幾何分布を用いた重要サンプリングがMADDPGの探索効率を大幅に向上させる可能性が示唆された。
https://github.com/shaashwathsivakumar/MARL_Proj
関連論文リスト
- MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。