Fugu-MT 論文翻訳(概要): Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent Reinforcement Learning

論文の概要: Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2201.10803v2
Date: Thu, 27 Jan 2022 02:06:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-28 11:44:40.686437
Title: Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習におけるセマンティクス・エプシロン・グリーディ探索戦略の活用
Authors: Hon Tik Tse, Ho-fung Leung
Abstract要約: マルチエージェント強化学習(MARL)のための新しいアプローチQMIX(SEG)を提案する。本手法では,QMIX値関数分解法を用いてエージェントごとのポリシーを訓練し,新しいセマンティック・エプシロン・グリーディ(SEG)探索戦略を提案する。我々はSEGが原子行動よりも豊かな意味を持つ行動群を探索することで意味探索を促進することを論じる。
参考スコア（独自算出の注目度）: 6.615661844604509
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent reinforcement learning (MARL) can model many real world applications. However, many MARL approaches rely on epsilon greedy for exploration, which may discourage visiting advantageous states in hard scenarios. In this paper, we propose a new approach QMIX(SEG) for tackling MARL. It makes use of the value function factorization method QMIX to train per-agent policies and a novel Semantic Epsilon Greedy (SEG) exploration strategy. SEG is a simple extension to the conventional epsilon greedy exploration strategy, yet it is experimentally shown to greatly improve the performance of MARL. We first cluster actions into groups of actions with similar effects and then use the groups in a bi-level epsilon greedy exploration hierarchy for action selection. We argue that SEG facilitates semantic exploration by exploring in the space of groups of actions, which have richer semantic meanings than atomic actions. Experiments show that QMIX(SEG) largely outperforms QMIX and leads to strong performance competitive with current state-of-the-art MARL approaches on the StarCraft Multi-Agent Challenge (SMAC) benchmark.
Abstract（参考訳）: マルチエージェント強化学習(marl)は多くの実世界のアプリケーションをモデル化できる。しかし、多くのMARLアプローチはエプシロンの欲求に依存しており、ハードシナリオにおける有利な状態の訪問を妨げかねない。本稿では,MARL 処理のための新しいアプローチ QMIX(SEG) を提案する。本手法では,QMIX値関数分解法を用いてエージェントごとのポリシーを訓練し,新しいセマンティック・エプシロン・グリーディ(SEG)探索戦略を提案する。 SEGは従来のエプシロングリード探査戦略の単純な拡張であるが、MARLの性能を大幅に改善することが実験的に示されている。まず、同様の効果を持つアクションのグループにアクションをクラスタ化し、次に、アクション選択のための二段階のエプシロングリーディ探索階層でグループを使用します。我々はSEGが原子行動よりも豊かな意味を持つ行動群を探索することで意味探索を促進することを論じる。実験により、QMIX(SEG)はQMIXよりも優れており、StarCraft Multi-Agent Challenge (SMAC)ベンチマークにおける現在の最先端のMARLアプローチと強い性能の競合をもたらすことが示された。

関連論文リスト

Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文参考訳（メタデータ） (2026-03-02T16:28:39Z)
MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2) 本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文参考訳（メタデータ） (2026-02-08T07:28:44Z)
MIR: Efficient Exploration in Episodic Multi-Agent Reinforcement Learning via Mutual Intrinsic Reward [14.959716217301368]
本稿では,強化学習のための簡易かつ効果的な強化戦略であるMIRを紹介する。 MIRは、個々のエージェントに対して、チームメイトに影響を与えるアクションを探求するインセンティブを与え、元の戦略と組み合わせることで、チームの探索を効果的に刺激し、アルゴリズムのパフォーマンスを改善する。評価式は,MiniGrid-MA設定における最先端手法に対する提案手法と比較し,優れたPerfor-manceを示す実験結果と比較した。
論文参考訳（メタデータ） (2025-11-21T11:32:28Z)
Multi-Agent Craftax: Benchmarking Open-Ended Multi-Agent Reinforcement Learning at the Hyperscale [53.08403177911567]
textitCraftax-MAは、人気のあるオープンエンドRL環境であるCraftaxの拡張である。 textitCraftax-Coopは異質なエージェント、トレーディング、さらに多くのメカニクスを導入し、エージェント間の複雑な協力を必要としている。
論文参考訳（メタデータ） (2025-11-07T01:09:36Z)
HLSMAC: A New StarCraft Multi-Agent Challenge for High-Level Strategic Decision-Making [6.071345022213649]
我々は,三十六ストラタゲムの古典的ストラタゲムに基づく12のStarCraft IIシナリオを慎重に設計した新しい協調型MARLベンチマークであるHLSMACを紹介する。それぞれのシナリオは特定の戦略と一致し、戦術的な操作、タイミング調整、詐欺といった様々な戦略要素を持つエージェントに挑戦するように設計されている。本研究では,HLSMAC環境におけるエージェントの総合的性能を評価するために,従来の勝利率を超える新たな指標,例えば能力利用率や向上効率を提案する。
論文参考訳（メタデータ） (2025-09-16T10:26:12Z)
MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement [73.34265922786763]
我々は機械学習エージェントを構築するための新しいアプローチであるMLE-STARを提案する。 MLE-STARは、まず、検索エンジンを使用してWebから効果的なモデルを取得することにより、外部知識を活用する。 MLE-STARにより提案される効果的な戦略を用いた新しいアンサンブル手法を提案する。
論文参考訳（メタデータ） (2025-05-27T18:11:25Z)
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文参考訳（メタデータ） (2025-03-07T18:03:13Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure [37.56309011441144]
本稿では,協調型マルチエージェント学習のためのメタ探索手法であるMESAを紹介する。エージェントはまず、訓練タスクからエージェントの高度に反転する状態-行動サブスペースを識別し、次にサブスペースを"探索する"ための多様な探索ポリシーのセットを学ぶことで探索を学ぶ。実験の結果,多エージェント粒子環境とマルチエージェント MuJoCo 環境におけるスパース・リワードタスクにおいて,MESA は学習された探索ポリシにより,大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2024-05-01T23:19:48Z)
Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning [15.46907000938726]
協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索に関する最初の研究について述べる。並列マルコフ決定過程(MDP)におけるランダム化探索のための統一されたアルゴリズムフレームワークと,2つのトンプソンサンプリング型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。提案手法は, 深層探査問題 (textiti.e.$N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題などを含む, 並列RL環境における提案手法の評価を行う。
論文参考訳（メタデータ） (2024-04-16T17:01:38Z)
Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文参考訳（メタデータ） (2024-03-13T20:11:20Z)
Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文参考訳（メタデータ） (2024-02-28T01:45:01Z)
FoX: Formation-aware exploration in multi-agent reinforcement learning [10.554220876480297]
本研究では, 探索空間における構成に基づく等価性関係を提案し, 異なる構成の有意義な状態のみを探索することによって探索空間を削減することを目的とする。数値計算の結果,提案するFoXフレームワークは,Google Research Football(GRF)における最先端のMARLアルゴリズムと,Starcraft IIマルチエージェントチャレンジ(SMAC)タスクを著しく上回ることがわかった。
論文参考訳（メタデータ） (2023-08-22T08:39:44Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文参考訳（メタデータ） (2022-12-27T11:08:49Z)
Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文参考訳（メタデータ） (2022-05-27T02:21:04Z)
Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。 CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2021-07-23T20:06:32Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。