Fugu-MT 論文翻訳(概要): FoX: Formation-aware exploration in multi-agent reinforcement learning

論文の概要: FoX: Formation-aware exploration in multi-agent reinforcement learning

arxiv url: http://arxiv.org/abs/2308.11272v2
Date: Sun, 14 Jan 2024 04:46:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 02:01:08.759234
Title: FoX: Formation-aware exploration in multi-agent reinforcement learning
Title（参考訳）: FoX:マルチエージェント強化学習における構成認識探索
Authors: Yonghyeon Jo, Sunwoo Lee, Junghyuk Yeom, Seungyul Han
Abstract要約: 本研究では, 探索空間における構成に基づく等価性関係を提案し, 異なる構成の有意義な状態のみを探索することによって探索空間を削減することを目的とする。数値計算の結果,提案するFoXフレームワークは,Google Research Football(GRF)における最先端のMARLアルゴリズムと,Starcraft IIマルチエージェントチャレンジ(SMAC)タスクを著しく上回ることがわかった。
参考スコア（独自算出の注目度）: 10.554220876480297
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, deep multi-agent reinforcement learning (MARL) has gained significant popularity due to its success in various cooperative multi-agent tasks. However, exploration still remains a challenging problem in MARL due to the partial observability of the agents and the exploration space that can grow exponentially as the number of agents increases. Firstly, in order to address the scalability issue of the exploration space, we define a formation-based equivalence relation on the exploration space and aim to reduce the search space by exploring only meaningful states in different formations. Then, we propose a novel formation-aware exploration (FoX) framework that encourages partially observable agents to visit the states in diverse formations by guiding them to be well aware of their current formation solely based on their own observations. Numerical results show that the proposed FoX framework significantly outperforms the state-of-the-art MARL algorithms on Google Research Football (GRF) and sparse Starcraft II multi-agent challenge (SMAC) tasks.
Abstract（参考訳）: 近年,様々な協調型マルチエージェントタスクの成功により,マルチエージェント強化学習(marl)が注目されている。しかし、MARLではエージェントの部分的な観測可能性や、エージェントの数が増加するにつれて指数関数的に増加する探索空間が問題となっている。まず,探索空間のスケーラビリティ問題に対処するため,探索空間における構成に基づく等価性関係を定義し,異なる構成の有意義な状態のみを探索することによって探索空間の縮小を目指す。そこで本研究では, 様々な形態において, 部分的に観察可能なエージェントに対して, 自らの観察に基づいてのみ, 現形成をよく認識するように指導する, 新たな形成認識探索(fox)フレームワークを提案する。 Google Research Football (GRF) とSparse Starcraft II multi-agent Challenge (SMAC) のタスクにおいて,提案したFoXフレームワークは最先端のMARLアルゴリズムよりも大幅に優れていた。

関連論文リスト

MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2) 本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文参考訳（メタデータ） (2026-02-08T07:28:44Z)
Multi-Agent Craftax: Benchmarking Open-Ended Multi-Agent Reinforcement Learning at the Hyperscale [53.08403177911567]
textitCraftax-MAは、人気のあるオープンエンドRL環境であるCraftaxの拡張である。 textitCraftax-Coopは異質なエージェント、トレーディング、さらに多くのメカニクスを導入し、エージェント間の複雑な協力を必要としている。
論文参考訳（メタデータ） (2025-11-07T01:09:36Z)
Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration [46.938186139700804]
本稿では,多言語探索を効率的に行うために,LLM (Large Language Model) から情報伝達タスク関連ガイダンスを選択する LEMAE を提案する。具体的には,LLMからの言語知識を,低推論コストで識別的に,タスク遂行に不可欠な記号的キー状態に分類する。 LEMAEは冗長な探索を減らし、既存のSOTAアプローチよりも大きなマージン(例えば SMAC や MPE)で性能を向上し、特定のシナリオにおいて10倍の加速を達成する。
論文参考訳（メタデータ） (2024-10-03T14:21:23Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure [37.56309011441144]
本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。実験の結果,多エージェント粒子環境とマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,MESA は学習された探索ポリシにより,大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2024-05-01T23:19:48Z)
Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文参考訳（メタデータ） (2024-02-28T01:45:01Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文参考訳（メタデータ） (2022-12-27T11:08:49Z)
Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文参考訳（メタデータ） (2021-09-21T13:47:04Z)
Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。 DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文参考訳（メタデータ） (2021-09-14T13:16:33Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。