論文の概要: Discovering Multiagent Learning Algorithms with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.16928v1
- Date: Wed, 18 Feb 2026 22:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.496632
- Title: Discovering Multiagent Learning Algorithms with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたマルチエージェント学習アルゴリズムの探索
- Authors: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot,
- Abstract要約: 我々は,大規模言語モデルを用いた進化的符号化エージェントであるAlphaEvolveを用いて,新しいマルチエージェント学習アルゴリズムを自動発見する。
ゲーム理論学習の2つの異なるパラダイムのための新しい変種を進化させることにより、この枠組みの一般化を実証する。
- 参考スコア(独自算出の注目度): 8.649235365712004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.
- Abstract(参考訳): 不完全な情報ゲームにおけるマルチエージェント強化学習(MARL)の進歩の多くは、歴史的に手動によるベースラインの反復的洗練に依存してきた。
Counterfactual Regret Minimization (CFR) や Policy Space Response Oracles (PSRO) のような基礎的な家族はしっかりとした理論上の基盤に留まっているが、彼らの最も効果的な変種の設計は、巨大なアルゴリズム設計空間をナビゲートするために人間の直感に依存していることが多い。
本研究では,大規模言語モデルを用いた進化的符号化エージェントであるAlphaEvolveを用いて,新たなマルチエージェント学習アルゴリズムを自動生成する手法を提案する。
ゲーム理論学習の2つの異なるパラダイムのための新しい変種を進化させることにより、この枠組みの一般化を実証する。
まず、反復的後悔最小化の領域において、後悔の蓄積と政策導出を規定する論理を進化させ、新しいアルゴリズムであるVolatility-Adaptive Discounted (VAD-)CFRを発見する。
VAD-CFRは、ボラティリティーに敏感な割引、一貫性の強化された楽観主義を含む、新しい非直感的なメカニズムを採用しており、Discounted Predictive CFR+のような最先端のベースラインよりも優れた、ハードウォームスタートポリシーの蓄積スケジュールを採用している。
次に,PSROの学習時間と評価時間のメタストラテジーを進化させ,新しい変種であるSmoothed Hybrid Optimistic Regret (SHOR-)PSROを発見した。
SHOR-PSROは、最適回帰マッチングと最適純粋戦略上の滑らかで温度制御された分布を線形にブレンドするハイブリッドメタゾルバを導入している。
この混合係数と多様性のボーナスをトレーニング中に動的に熱処理することにより、アルゴリズムは集団の多様性から厳密な平衡発見への移行を自動化し、標準的な静的メタ溶媒よりも優れた経験的収束をもたらす。
関連論文リスト
- Game-Theoretic Co-Evolution for LLM-Based Heuristic Discovery [37.96481049421407]
大規模言語モデル(LLM)は、自動発見の急速な進歩を可能にした。
本稿では,発見を問題解決者とインスタンスジェネレータのプログラムレベルの共進化として再編成するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T12:14:52Z) - Beyond Algorithm Evolution: An LLM-Driven Framework for the Co-Evolution of Swarm Intelligence Optimization Algorithms and Prompts [2.7320188728052064]
本稿では,Swarmインテリジェンスアルゴリズムと誘導プロンプトの協調進化のための新しいフレームワークを提案する。
このフレームワークはNP問題に対して厳格に評価され、優れた性能を示した。
我々の研究は群知能最適化アルゴリズムの新しいパラダイムを確立し、即時進化の必然的な役割を浮き彫りにする。
論文 参考訳(メタデータ) (2025-12-10T00:37:16Z) - A Hierarchical Hybrid AI Approach: Integrating Deep Reinforcement Learning and Scripted Agents in Combat Simulations [0.0]
本稿では,スクリプトエージェントの信頼性と予測性をRLの動的適応学習能力と相乗化する,階層型ハイブリッド人工知能(AI)アプローチを提案する。
提案手法は,AIシステムを階層的に構築することにより,日常的かつ戦術的な意思決定にスクリプトエージェント,高レベルの戦略的意思決定にRLエージェントを活用することを目的としている。
論文 参考訳(メタデータ) (2025-11-28T23:50:29Z) - Experience-Guided Reflective Co-Evolution of Prompts and Heuristics for Automatic Algorithm Design [124.54166764570972]
組合せ最適化問題は伝統的に手作りのアルゴリズムで取り組まれている。
最近の進歩は、大規模言語モデルによる自動設計の可能性を強調している。
本稿では,自動アルゴリズム設計のためのPmpt and Heuristics (EvoPH) を用いた経験進化的リフレクティブ・ガイドを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:24:09Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - An Efficient Application of Neuroevolution for Competitive Multiagent
Learning [0.0]
NEATは、最高のパフォーマンスのニューラルネットワークアーキテクチャを得るために使われる一般的な進化戦略である。
本稿では, NEATアルゴリズムを用いて, 変形したポンポンゲーム環境において, 競争力のあるマルチエージェント学習を実現する。
論文 参考訳(メタデータ) (2021-05-23T10:34:48Z) - Epistocracy Algorithm: A Novel Hyper-heuristic Optimization Strategy for
Solving Complex Optimization Problems [1.471992435706872]
本稿では,人間の社会・政治行動と知性を組み込んで複雑な最適化問題を解く,エピストクラシーという新しい進化的アルゴリズムを提案する。
エピストクラシーのアルゴリズムのインスピレーションは、教育を受けた人々が教育を受けていない人や教育を受けていない人よりも投票力を持つ政治体制に端を発する。
実験結果から, エピストクラシーアルゴリズムは, 性能, 精度, 堅牢性の観点から, 最先端の進化的, 群知能アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-01-30T19:07:09Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。