論文の概要: Fact-based Agent modeling for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.12290v1
- Date: Wed, 18 Oct 2023 19:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 18:08:41.101964
- Title: Fact-based Agent modeling for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のためのファクトベースエージェントモデリング
- Authors: Baofu Fang, Caiming Zheng and Hao Wang
- Abstract要約: Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
- 参考スコア(独自算出の注目度): 6.431977627644292
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In multi-agent systems, agents need to interact and collaborate with other
agents in environments. Agent modeling is crucial to facilitate agent
interactions and make adaptive cooperation strategies. However, it is
challenging for agents to model the beliefs, behaviors, and intentions of other
agents in non-stationary environment where all agent policies are learned
simultaneously. In addition, the existing methods realize agent modeling
through behavior cloning which assume that the local information of other
agents can be accessed during execution or training. However, this assumption
is infeasible in unknown scenarios characterized by unknown agents, such as
competition teams, unreliable communication and federated learning due to
privacy concerns. To eliminate this assumption and achieve agent modeling in
unknown scenarios, Fact-based Agent modeling (FAM) method is proposed in which
fact-based belief inference (FBI) network models other agents in partially
observable environment only based on its local information. The reward and
observation obtained by agents after taking actions are called facts, and FAM
uses facts as reconstruction target to learn the policy representation of other
agents through a variational autoencoder. We evaluate FAM on various Multiagent
Particle Environment (MPE) and compare the results with several
state-of-the-art MARL algorithms. Experimental results show that compared with
baseline methods, FAM can effectively improve the efficiency of agent policy
learning by making adaptive cooperation strategies in multi-agent reinforcement
learning tasks, while achieving higher returns in complex
competitive-cooperative mixed scenarios.
- Abstract(参考訳): マルチエージェントシステムでは、エージェントは環境で他のエージェントと相互作用し、協調する必要がある。
エージェントモデリングはエージェントの相互作用を促進し、適応的な協調戦略を作るのに不可欠である。
しかしながら、エージェントが他のエージェントの信念、行動、意図をモデル化することは、エージェントポリシーが同時に学習される非定常環境において困難である。
さらに、既存の手法では、実行やトレーニング中に他のエージェントのローカル情報にアクセス可能であると仮定した行動クローニングによるエージェントモデリングを実現する。
しかし、この仮定は、競争チーム、信頼できないコミュニケーション、プライバシーの懸念による連合学習など、未知のエージェントによって特徴づけられる未知のシナリオでは実現不可能である。
この仮定を取り除き、未知のシナリオでエージェントモデリングを実現するために、ファクトベース信念推論(fbi)ネットワークが、そのローカル情報のみに基づいて、部分的に観察可能な環境で他のエージェントをモデル化するファクトベースエージェントモデリング(fam)法が提案されている。
アクションの後にエージェントが得られる報酬と観察は事実と呼ばれ、FAMは事実を再構築ターゲットとして使用して、変動オートエンコーダを通じて他のエージェントのポリシー表現を学習する。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
実験の結果,famは,多エージェント強化学習タスクにおいて適応的協調戦略を行い,複雑な競合協調混合シナリオにおいて高いリターンを達成し,エージェントポリシー学習の効率を効果的に向上できることがわかった。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Agent Modelling under Partial Observability for Deep Reinforcement
Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文 参考訳(メタデータ) (2020-06-16T18:43:42Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。