Fugu-MT 論文翻訳(概要): Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning

論文の概要: Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.17978v2
Date: Fri, 1 Mar 2024 11:08:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-04 11:38:41.991236
Title: Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における効果的な探索手法の想像,初期化,探索
Authors: Zeyang Liu, Lipeng Wan, Xinrui Yang, Zhuoran Chen, Xingyu Chen, Xuguang Lan
Abstract要約: 複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
参考スコア（独自算出の注目度）: 27.81925751697255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective exploration is crucial to discovering optimal strategies for multi-agent reinforcement learning (MARL) in complex coordination tasks. Existing methods mainly utilize intrinsic rewards to enable committed exploration or use role-based learning for decomposing joint action spaces instead of directly conducting a collective search in the entire action-observation space. However, they often face challenges obtaining specific joint action sequences to reach successful states in long-horizon tasks. To address this limitation, we propose Imagine, Initialize, and Explore (IIE), a novel method that offers a promising solution for efficient multi-agent exploration in complex scenarios. IIE employs a transformer model to imagine how the agents reach a critical state that can influence each other's transition functions. Then, we initialize the environment at this state using a simulator before the exploration phase. We formulate the imagination as a sequence modeling problem, where the states, observations, prompts, actions, and rewards are predicted autoregressively. The prompt consists of timestep-to-go, return-to-go, influence value, and one-shot demonstration, specifying the desired state and trajectory as well as guiding the action generation. By initializing agents at the critical states, IIE significantly increases the likelihood of discovering potentially important under-explored regions. Despite its simplicity, empirical results demonstrate that our method outperforms multi-agent exploration baselines on the StarCraft Multi-Agent Challenge (SMAC) and SMACv2 environments. Particularly, IIE shows improved performance in the sparse-reward SMAC tasks and produces more effective curricula over the initialized states than other generative methods, such as CVAE-GAN and diffusion models.
Abstract（参考訳）: 複雑な協調作業におけるマルチエージェント強化学習(MARL)の最適戦略を発見するためには,効果的な探索が重要である。既存の手法では、主に内在的な報酬を利用して、行動観察空間全体において集団探索を直接行うのではなく、共同行動空間を分解する役割ベースの学習を可能にする。しかし、彼らは長い水平タスクで成功する状態に到達するための特定の共同行動シーケンスを得るという課題に直面している。この制限に対処するため,複雑なシナリオにおける効率的なマルチエージェント探索のための新しい手法であるImagine, Initialize, Explore (IIE)を提案する。 IIEはトランスフォーマーモデルを用いて、エージェントが互いの遷移関数に影響を与える臨界状態に達する方法を想像する。そして,探索フェーズの前にシミュレータを用いて,この状態で環境を初期化する。我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。プロンプトは、タイムステップ・トゥ・ゴー、リターン・トゥ・ゴー、インフルエンス値、ワンショットのデモで構成され、望ましい状態と軌道を指定するとともに、アクション生成を導く。臨界状態のエージェントを初期化することにより、IIEは潜在的に重要でない領域を発見する可能性を大幅に高める。その単純さにもかかわらず,本手法はStarCraft Multi-Agent Challenge (SMAC) とSMACv2環境におけるマルチエージェント探索ベースラインよりも優れていることを示す。特に、IIEはスパース逆SMACタスクの性能を改善し、CVAE-GANや拡散モデルのような他の生成手法よりも初期化状態よりも効果的なカリキュラムを生成する。

関連論文リスト

Off-policy Reinforcement Learning with Model-based Exploration Augmentation [29.61835214523957]
我々は,未探索臨界状態の生成を通じて探索を強化するモデル生成探索(MoGE)を提案する。 MoGEは,(1)政策探索における各州の潜在的影響を評価するユーティリティ関数の指導の下で臨界状態を合成する拡散型ジェネレータと,(2)エージェント学習の臨界状態に基づく臨界遷移を構築するための一段階の想像的世界モデルとから構成される。提案手法では,非政治学習の原則に則ったモジュール型定式化を採用し,既存のアルゴリズムとのシームレスな統合により,コア構造を変更することなく探索を改善する。
論文参考訳（メタデータ） (2025-10-29T13:53:52Z)
A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文参考訳（メタデータ） (2025-10-13T04:07:01Z)
FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文参考訳（メタデータ） (2024-10-21T10:57:45Z)
Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文参考訳（メタデータ） (2024-10-19T19:22:50Z)
SVDE: Scalable Value-Decomposition Exploration for Cooperative Multi-Agent Reinforcement Learning [22.389803019100423]
本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
論文参考訳（メタデータ） (2023-03-16T03:17:20Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文参考訳（メタデータ） (2020-08-12T10:23:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。