論文の概要: Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.17978v1
- Date: Wed, 28 Feb 2024 01:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:46:20.595783
- Title: Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における効果的な探索手法の想像,初期化,探索
- Authors: Zeyang Liu, Lipeng Wan, Xinrui Yang, Zhuoran Chen, Xingyu Chen,
Xuguang Lan
- Abstract要約: 複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
- 参考スコア(独自算出の注目度): 27.81925751697255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective exploration is crucial to discovering optimal strategies for
multi-agent reinforcement learning (MARL) in complex coordination tasks.
Existing methods mainly utilize intrinsic rewards to enable committed
exploration or use role-based learning for decomposing joint action spaces
instead of directly conducting a collective search in the entire
action-observation space. However, they often face challenges obtaining
specific joint action sequences to reach successful states in long-horizon
tasks. To address this limitation, we propose Imagine, Initialize, and Explore
(IIE), a novel method that offers a promising solution for efficient
multi-agent exploration in complex scenarios. IIE employs a transformer model
to imagine how the agents reach a critical state that can influence each
other's transition functions. Then, we initialize the environment at this state
using a simulator before the exploration phase. We formulate the imagination as
a sequence modeling problem, where the states, observations, prompts, actions,
and rewards are predicted autoregressively. The prompt consists of
timestep-to-go, return-to-go, influence value, and one-shot demonstration,
specifying the desired state and trajectory as well as guiding the action
generation. By initializing agents at the critical states, IIE significantly
increases the likelihood of discovering potentially important under-explored
regions. Despite its simplicity, empirical results demonstrate that our method
outperforms multi-agent exploration baselines on the StarCraft Multi-Agent
Challenge (SMAC) and SMACv2 environments. Particularly, IIE shows improved
performance in the sparse-reward SMAC tasks and produces more effective
curricula over the initialized states than other generative methods, such as
CVAE-GAN and diffusion models.
- Abstract(参考訳): 複雑な協調作業におけるマルチエージェント強化学習(MARL)の最適戦略を発見するためには,効果的な探索が重要である。
既存の手法では、主に内在的な報酬を利用して、行動観察空間全体において集団探索を直接行うのではなく、共同行動空間を分解する役割ベースの学習を可能にする。
しかし、彼らは長い水平タスクで成功する状態に到達するための特定の共同行動シーケンスを得るという課題に直面している。
この制限に対処するため,複雑なシナリオにおける効率的なマルチエージェント探索のための新しい手法であるImagine, Initialize, Explore (IIE)を提案する。
IIEはトランスフォーマーモデルを用いて、エージェントが互いの遷移関数に影響を与える臨界状態に達する方法を想像する。
そして,探索フェーズの前にシミュレータを用いて,この状態で環境を初期化する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
プロンプトは、タイムステップ・トゥ・ゴー、リターン・トゥ・ゴー、インフルエンス値、ワンショットのデモで構成され、望ましい状態と軌道を指定するとともに、アクション生成を導く。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要でない領域を発見する可能性を大幅に高める。
その単純さにもかかわらず,本手法はStarCraft Multi-Agent Challenge (SMAC) とSMACv2環境におけるマルチエージェント探索ベースラインよりも優れていることを示す。
特に、IIEはスパース逆SMACタスクの性能を改善し、CVAE-GANや拡散モデルのような他の生成手法よりも初期化状態よりも効果的なカリキュラムを生成する。
関連論文リスト
- FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning [22.389803019100423]
本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。
提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T03:17:20Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。