論文の概要: Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.09418v1
- Date: Wed, 20 Apr 2022 12:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:42:30.698081
- Title: Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): モデルベース協調型マルチエージェント強化学習
- Authors: Zhiwei Xu, Dapeng Li, Bin Zhang, Yuan Zhan, Yunpeng Bai, Guoliang Fan
- Abstract要約: 本稿では,暗黙的なモデルに基づくマルチエージェント強化学習手法を提案する。
この方法では,エージェントは学習した仮想環境と対話し,将来の予測状態に応じて現在の状態値を評価することができる。
- 参考スコア(独自算出の注目度): 15.12491397254381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, model-based agents have achieved better performance compared with
model-free ones using the same computational budget and training time in
single-agent environments. However, due to the complexity of multi-agent
systems, it is very difficult to learn the model of the environment. When
model-based methods are applied to multi-agent tasks, the significant
compounding error may hinder the learning process. In this paper, we propose an
implicit model-based multi-agent reinforcement learning method based on value
decomposition methods. Under this method, agents can interact with the learned
virtual environment and evaluate the current state value according to imagined
future states, which makes agents have foresight. Our method can be applied to
any multi-agent value decomposition method. The experimental results show that
our method improves the sample efficiency in partially observable Markov
decision process domains.
- Abstract(参考訳): 近年,モデルベースエージェントは,単一エージェント環境における同じ計算予算とトレーニング時間を用いたモデルフリーエージェントと比較して,性能が向上している。
しかし,マルチエージェントシステムの複雑さから,環境モデルを学ぶことは非常に困難である。
モデルに基づく手法がマルチエージェントタスクに適用されると、重要な合成エラーが学習プロセスを妨げる可能性がある。
本稿では,値分解法に基づく暗黙モデルに基づくマルチエージェント強化学習手法を提案する。
この方法では、エージェントが学習した仮想環境と対話し、想定された将来の状態に応じて現在の状態値を評価することができる。
本手法は任意のマルチエージェント値分解法に適用できる。
実験結果は, 部分可観測マルコフ決定過程領域においてサンプル効率が向上することを示す。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Model-Based Imitation Learning Using Entropy Regularization of Model and
Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。
ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。
計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-21T04:15:12Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。