論文の概要: Multi Type Mean Field Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.02513v7
- Date: Tue, 21 Jun 2022 08:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 10:01:40.340642
- Title: Multi Type Mean Field Reinforcement Learning
- Title(参考訳): マルチタイプ平均場強化学習
- Authors: Sriram Ganapathi Subramanian and Pascal Poupart and Matthew E. Taylor
and Nidhi Hegde
- Abstract要約: 平均場乗算アルゴリズムを複数のタイプに拡張する。
エージェント強化学習の分野では,3つのテストベッドで実験を行った。
- 参考スコア(独自算出の注目度): 26.110052366068533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean field theory provides an effective way of scaling multiagent
reinforcement learning algorithms to environments with many agents that can be
abstracted by a virtual mean agent. In this paper, we extend mean field
multiagent algorithms to multiple types. The types enable the relaxation of a
core assumption in mean field reinforcement learning, which is that all agents
in the environment are playing almost similar strategies and have the same
goal. We conduct experiments on three different testbeds for the field of many
agent reinforcement learning, based on the standard MAgents framework. We
consider two different kinds of mean field environments: a) Games where agents
belong to predefined types that are known a priori and b) Games where the type
of each agent is unknown and therefore must be learned based on observations.
We introduce new algorithms for each type of game and demonstrate their
superior performance over state of the art algorithms that assume that all
agents belong to the same type and other baseline algorithms in the MAgent
framework.
- Abstract(参考訳): 平均場理論は、仮想平均エージェントによって抽象化できる多くのエージェントを持つ環境に、マルチエージェント強化学習アルゴリズムをスケールする効果的な方法を提供する。
本稿では,平均場マルチエージェントアルゴリズムを複数の型に拡張する。
これらのタイプは、平均場強化学習における中核的な仮定の緩和を可能にし、環境中のすべてのエージェントがほぼ同様の戦略をとっており、同じ目標を持っている。
標準マゼンツフレームワークに基づき,多数のエージェント強化学習の分野における3つの異なるテストベッドについて実験を行った。
我々は2種類の平均場環境を考える。
a) エージェントが事前定義された型に属しており、かつ
b) 各エージェントの種類が不明で,従って観察に基づいて学習しなければならないゲーム
我々は,各種類のゲームに対して新しいアルゴリズムを導入し,すべてのエージェントがMAgentフレームワーク内の同じタイプおよび他のベースラインアルゴリズムに属すると仮定する技術アルゴリズムの状況よりも優れた性能を示す。
関連論文リスト
- AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent
Reinforcement Learning [38.77840067555711]
本稿では,MARLを用いて訓練されたニューラルネットワークから決定木ポリシーを抽出する,解釈可能なMARLアルゴリズムの最初のセットを提案する。
第1のアルゴリズムであるIVIPERは、シングルエージェント解釈可能なRLの最近の方法であるVIPERをマルチエージェント設定に拡張する。
そこで本研究では,エージェント間の協調関係をよりよく把握するために,新しい集中型決定木学習アルゴリズムMAVIPERを提案する。
論文 参考訳(メタデータ) (2022-05-25T02:38:10Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - Model Free Reinforcement Learning Algorithm for Stationary Mean field
Equilibrium for Multiple Types of Agents [43.21120427632336]
エージェントが複数の型を持つ無限大地平線上のマルチエージェント戦略相互作用を考える。
各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。
このような相互作用が、ディフェンダーや敵のサイバー攻撃をどうモデル化するかを示す。
論文 参考訳(メタデータ) (2020-12-31T00:12:46Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Non-cooperative Multi-agent Systems with Exploring Agents [10.736626320566707]
マルコフゲームを用いたマルチエージェント動作の規範モデルを開発した。
エージェントが探索するが、最適戦略に近い」モデルに焦点を当てる。
論文 参考訳(メタデータ) (2020-05-25T19:34:29Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。