論文の概要: Generative Evolutionary Meta-Solver (GEMS): Scalable Surrogate-Free Multi-Agent Learning
- arxiv url: http://arxiv.org/abs/2509.23462v1
- Date: Sat, 27 Sep 2025 19:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.240752
- Title: Generative Evolutionary Meta-Solver (GEMS): Scalable Surrogate-Free Multi-Agent Learning
- Title(参考訳): 進化的メタソルバー(GEMS):スケーラブルなサロゲートフリーマルチエージェント学習
- Authors: Alakh Sharma, Gaurish Trivedi, Kartikey Bhandari, Yash Sinha, Dhruv Kumar, Pratik Narang, Jagat Sesh Challa,
- Abstract要約: 本稿では,一組の潜伏アンカーと一組の無償却ジェネレータで明示的な集団を置き換えるサロゲートフリーフレームワークであるジェネレーション進化メタ(GEMS)を提案する。
GEMSは、不偏のモンテカルロロールアウト、乗法的重み付けメタ力学、およびポリシーセットを適応的に拡張するためのモデルのない経験的オラクルに依存している。
GEMSは最大6倍高速で、PSROより1.3倍少ないメモリ使用量で、同時に報酬を享受できる。
- 参考スコア(独自算出の注目度): 5.217618511306204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable multi-agent reinforcement learning (MARL) remains a central challenge for AI. Existing population-based methods, like Policy-Space Response Oracles, PSRO, require storing explicit policy populations and constructing full payoff matrices, incurring quadratic computation and linear memory costs. We present Generative Evolutionary Meta-Solver (GEMS), a surrogate-free framework that replaces explicit populations with a compact set of latent anchors and a single amortized generator. Instead of exhaustively constructing the payoff matrix, GEMS relies on unbiased Monte Carlo rollouts, multiplicative-weights meta-dynamics, and a model-free empirical-Bernstein UCB oracle to adaptively expand the policy set. Best responses are trained within the generator using an advantage-based trust-region objective, eliminating the need to store and train separate actors. We evaluated GEMS in a variety of Two-player and Multi-Player games such as the Deceptive Messages Game, Kuhn Poker and Multi-Particle environment. We find that GEMS is up to ~6x faster, has 1.3x less memory usage than PSRO, while also reaps higher rewards simultaneously. These results demonstrate that GEMS retains the game theoretic guarantees of PSRO, while overcoming its fundamental inefficiencies, hence enabling scalable multi-agent learning in multiple domains.
- Abstract(参考訳): スケーラブルなマルチエージェント強化学習(MARL)は、AIにとって依然として中心的な課題である。
政策空間対応オラクル(PSRO)のような既存の人口ベースの手法では、明示的な政策人口を保存し、完全なペイオフ行列を構築し、二次計算と線形メモリコストを発生させる必要がある。
提案するジェネレーション進化メタソルバー(GEMS, Generative Evolutionary Meta-Solver)は, 個体群を置換するサロゲートフリーなフレームワークである。
GEMSは、ペイオフ行列を徹底的に構築する代わりに、不偏のモンテカルロロールアウト、乗法的重み付けメタ力学、モデルのない経験的バーンスタイン UCBオラクルを頼りに、ポリシーセットを適応的に拡張する。
ベストレスポンスは、アドバンテージベースの信頼領域の目標を使用してジェネレータ内でトレーニングされ、別々のアクターを格納およびトレーニングする必要がなくなる。
GEMSは,認知メッセージゲーム,クーンポーカー,マルチパーティクル環境など,多種多様なマルチプレイヤーゲームにおいて評価された。
GEMSは最大で6倍速く、PSROより1.3倍少ないメモリ使用量で、同時に高い報酬を享受できる。
これらの結果から,GEMSはPSROのゲーム理論的保証を維持しつつ,その基本的な非効率性を克服し,複数のドメインでスケーラブルなマルチエージェント学習を実現することが示唆された。
関連論文リスト
- JoyAgents-R1: Joint Evolution Dynamics for Versatile Multi-LLM Agents with Reinforcement Learning [6.81021875668872]
ヘテロジニアス多エージェントの協調訓練にグループ相対ポリシー最適化を適用したJoyAgents-R1を提案する。
JoyAgents-R1は、より小さなオープンソースモデルで構築されたより大きなLLMに匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:59:31Z) - Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
悪名高いオープンな2つの課題は、不確実性の集合の定式化と、対応するRMGがマルチ緊急の呪いを克服できるかどうかである。
本研究では,行動経済学に着想を得た自然なRMGのクラスを提案し,各エージェントの不確実性セットは,環境と他のエージェントの統合行動の両方によって形成される。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Independent Policy Mirror Descent for Markov Potential Games: Scaling to Large Number of Players [17.55330497310932]
マルコフポテンシャルゲーム(Markov potential Games、MPG)はマルコフゲームの重要なサブクラスである。
MPGは特別な場合として、すべてのエージェントが同じ報酬関数を共有する、同一の関心の設定を含む。
マルチエージェントシステムでは,Nash平衡学習アルゴリズムの性能を多数のエージェントに拡張することが重要である。
論文 参考訳(メタデータ) (2024-08-15T11:02:05Z) - Fleet of Agents: Coordinated Problem Solving with Large Language Models [10.167121757937062]
Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして大きな言語モデルを利用する、原則化されたフレームワークである。
FoAは多数のエージェントを発生させ、それぞれが自律的に検索空間を探索し、次に選択フェーズを行う。
FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを実現し、FoA + LMA3.2-11BはLlama3.2-90Bモデルを上回る。
論文 参考訳(メタデータ) (2024-05-07T09:36:23Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。