論文の概要: Multi-agent Actor-Critic with Time Dynamical Opponent Model
- arxiv url: http://arxiv.org/abs/2204.05576v1
- Date: Tue, 12 Apr 2022 07:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 00:01:05.545961
- Title: Multi-agent Actor-Critic with Time Dynamical Opponent Model
- Title(参考訳): 時間力学対向モデルを用いたマルチエージェントアクタ-クリティック
- Authors: Yuan Tian, Klaus-Rudolf Kladny, Qin Wang, Zhiwu Huang, Olga Fink
- Abstract要約: 多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。
本稿では,TDOM(textitTime Dynamical Opponent Model)を提案する。
我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
- 参考スコア(独自算出の注目度): 16.820873906787906
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In multi-agent reinforcement learning, multiple agents learn simultaneously
while interacting with a common environment and each other. Since the agents
adapt their policies during learning, not only the behavior of a single agent
becomes non-stationary, but also the environment as perceived by the agent.
This renders it particularly challenging to perform policy improvement. In this
paper, we propose to exploit the fact that the agents seek to improve their
expected cumulative reward and introduce a novel \textit{Time Dynamical
Opponent Model} (TDOM) to encode the knowledge that the opponent policies tend
to improve over time. We motivate TDOM theoretically by deriving a lower bound
of the log objective of an individual agent and further propose
\textit{Multi-Agent Actor-Critic with Time Dynamical Opponent Model} (TDOM-AC).
We evaluate the proposed TDOM-AC on a differential game and the Multi-agent
Particle Environment. We show empirically that TDOM achieves superior opponent
behavior prediction during test time. The proposed TDOM-AC methodology
outperforms state-of-the-art Actor-Critic methods on the performed experiments
in cooperative and \textbf{especially} in mixed cooperative-competitive
environments. TDOM-AC results in a more stable training and a faster
convergence.
- Abstract(参考訳): 多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。
エージェントは学習中にポリシーに適応するため、単一のエージェントの振る舞いが非定常的になるだけでなく、エージェントが認識する環境も変化する。
これは特に政策改善を困難にしている。
本稿では,エージェントが期待される累積報酬を改善しようとする事実を生かして,時間とともに相手の方針が改善する傾向にあるという知識を符号化する新しい「textit{Time Dynamical Opponent Model} (TDOM)」を提案する。
我々は、個々のエージェントのログ対象の下位境界を導出することで、理論的にTDOMを動機付け、さらに時間動的応答モデルを用いた \textit{Multi-Agent Actor-Critic (TDOM-AC)を提案する。
差分ゲームとマルチエージェント粒子環境におけるTDOM-ACの評価を行った。
我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
提案するtdom-ac手法は,混合協調競争環境における協調実験および \textbf{ especially} 実験において,最先端のアクター批判手法を上回っている。
TDOM-ACはより安定したトレーニングとより速い収束をもたらす。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-10-18T19:43:38Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。