論文の概要: AOAD-MAT: Transformer-based multi-agent deep reinforcement learning model considering agents' order of action decisions
- arxiv url: http://arxiv.org/abs/2510.13343v1
- Date: Wed, 15 Oct 2025 09:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.596642
- Title: AOAD-MAT: Transformer-based multi-agent deep reinforcement learning model considering agents' order of action decisions
- Title(参考訳): AOAD-MAT:エージェントの行動決定順序を考慮したトランスフォーマーに基づく多エージェント深部強化学習モデル
- Authors: Shota Takayama, Katsuhide Fujita,
- Abstract要約: マルチエージェント強化学習は、共有環境で共存する複数の学習エージェントの行動訓練に焦点を当てる。
本稿では,エージェントが決定を下す順序を考慮に入れたエージェント・オーダー・オブ・アクション・ディシジョン-MATモデルを提案する。
提案モデルでは,行動決定の順序を学習プロセスに明示的に組み込んで,エージェント行動の最適順序を学習し,予測することができる。
- 参考スコア(独自算出の注目度): 8.06273583361266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning focuses on training the behaviors of multiple learning agents that coexist in a shared environment. Recently, MARL models, such as the Multi-Agent Transformer (MAT) and ACtion dEpendent deep Q-learning (ACE), have significantly improved performance by leveraging sequential decision-making processes. Although these models can enhance performance, they do not explicitly consider the importance of the order in which agents make decisions. In this paper, we propose an Agent Order of Action Decisions-MAT (AOAD-MAT), a novel MAT model that considers the order in which agents make decisions. The proposed model explicitly incorporates the sequence of action decisions into the learning process, allowing the model to learn and predict the optimal order of agent actions. The AOAD-MAT model leverages a Transformer-based actor-critic architecture that dynamically adjusts the sequence of agent actions. To achieve this, we introduce a novel MARL architecture that cooperates with a subtask focused on predicting the next agent to act, integrated into a Proximal Policy Optimization based loss function to synergistically maximize the advantage of the sequential decision-making. The proposed method was validated through extensive experiments on the StarCraft Multi-Agent Challenge and Multi-Agent MuJoCo benchmarks. The experimental results show that the proposed AOAD-MAT model outperforms existing MAT and other baseline models, demonstrating the effectiveness of adjusting the AOAD order in MARL.
- Abstract(参考訳): マルチエージェント強化学習は、共有環境で共存する複数の学習エージェントの行動訓練に焦点を当てる。
近年,Multi-Agent Transformer (MAT) や ACtion dEpendent Deep Q-learning (ACE) などのMARLモデルは,シーケンシャルな意思決定プロセスを活用することで,大幅な性能向上を実現している。
これらのモデルは性能を向上させることができるが、エージェントが決定を下す順序の重要性を明確には考慮していない。
本稿では,エージェントが意思決定を行う順序を考慮した新しいMATモデルであるAOAD-MATを提案する。
提案モデルでは,行動決定の順序を学習プロセスに明示的に組み込んで,エージェント行動の最適順序を学習し,予測することができる。
AOAD-MATモデルはトランスフォーマーベースのアクタークリティカルアーキテクチャを活用し、エージェントアクションのシーケンスを動的に調整する。
そこで本研究では,次なるエージェントの動作予測に重点を置いたサブタスクと協調する新しいMARLアーキテクチャを導入し,逐次的意思決定の利点を相乗的に最大化するために,ポリシ最適化に基づく損失関数に統合する。
提案手法はStarCraft Multi-Agent ChallengeとMulti-Agent MuJoCoベンチマークの広範な実験により検証された。
実験の結果,提案したAOAD-MATモデルは既存のMATや他のベースラインモデルよりも優れており,MARLにおけるAOAD順序の調整の有効性が示された。
関連論文リスト
- PMAT: Optimizing Action Generation Order in Multi-Agent Reinforcement Learning [16.523999372817435]
AGPS(Action Generation with Plackett-Luce Sampling)はエージェント決定順序最適化のための新しいメカニズムである。
本稿では,決定順序を最適化した逐次意思決定型MARLアルゴリズムである優先多重エージェント変換器(PMAT)を提案する。
StarCraft II Multi-Agent Challenge、Google Research Football、Multi-Agent MuJoCoといったベンチマークの実験では、PMATが最先端のアルゴリズムより優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-23T08:30:14Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Learning Multiple Coordinated Agents under Directed Acyclic Graph
Constraints [20.45657219304883]
本稿では,有向非巡回グラフ(DAG)制約下で複数の協調エージェントを学習する新しいマルチエージェント強化学習(MARL)法を提案する。
既存のMARL手法とは異なり,本手法ではエージェント間のDAG構造を明示的に利用し,より効果的な学習性能を実現する。
論文 参考訳(メタデータ) (2023-07-13T13:41:24Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Multi-Agent Reinforcement Learning is a Sequence Modeling Problem [33.679936867612525]
マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。
MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。
MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
論文 参考訳(メタデータ) (2022-05-30T09:39:45Z) - Toward Policy Explanations for Multi-Agent Reinforcement Learning [18.33682005623418]
MARLのための2種類のポリシー記述を生成するための新しい手法を提案する。
3つのMARL領域の実験結果から,提案手法のスケーラビリティが実証された。
ユーザスタディでは、生成された説明がユーザパフォーマンスを著しく改善し、ユーザ満足度などの指標に対する主観的評価が向上することを示した。
論文 参考訳(メタデータ) (2022-04-26T20:07:08Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。