論文の概要: PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play
- arxiv url: http://arxiv.org/abs/2605.16727v1
- Date: Sat, 16 May 2026 00:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.992092
- Title: PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play
- Title(参考訳): PopuLoRA: 自己再生のためのLDM人口の共進化
- Authors: Roger Creus Castanyer, Geoffrey Bradway, Lorenz Wolf, Maxwill Lin, Augustine N. Mavor-Parker, Matthew James Sargent,
- Abstract要約: PopuLoRAは、検証可能な報酬を伴う強化学習のための、人口ベースの非対称なセルフプレイフレームワークである。
本稿では,Absolute Zero Reasoner上でPopuLoRAをインスタンス化し,Absolute Zero Reasonerの計算整合単一エージェントベースラインと比較する。
- 参考スコア(独自算出の注目度): 3.1109443679002475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PopuLoRA, a population-based asymmetric self-play framework for reinforcement learning with verifiable rewards (RLVR) post-training of LLMs. Teachers and students are specialised LoRA adapters on a shared frozen base: teachers propose problems, matched students solve them under a programmatic verifier, and cross-evaluation between sub-populations replaces the self-calibration that limits single-agent self-play. A family of LoRA weight-space evolution operators (mutations and crossovers that produce same-rank population members in seconds) serves as the replacement step of a population-based training loop at 7B scale. We instantiate PopuLoRA on top of Absolute Zero Reasoner and compare it against a per-adapter compute-matched single-agent baseline. Where the single agent self-calibrates to generating easy problems it can reliably solve, the population enters a co-evolutionary arms race: teachers produce increasingly complex problems, student solve rates oscillate, and problem-space coverage keeps expanding throughout training. Despite lower training-time reward, the population mean outperforms the baseline on three code benchmarks (HumanEval+, MBPP+, LiveCodeBench) and seven math benchmarks (AIME 24/25, AMC 23, MATH-500, Minerva, GSM8K, OlympiadBench), and even the weakest member of the population beats the baseline on aggregate.
- Abstract(参考訳): 我々は,LLMの学習後評価(RLVR)による強化学習のための,人口ベースで非対称なセルフプレイフレームワークであるPopuLoRAを紹介した。
教師と生徒は共有冷凍ベースでLoRAアダプタを専門にしている: 教師は問題を提案し、一致した生徒はプログラムによる検証でそれらを解決し、サブ人口間の相互評価は、シングルエージェントのセルフプレイを制限する自己校正に取って代わる。
LoRAの重み空間進化演算子(数秒で同ランクの人口を発生させる突然変異と交叉)のファミリーは、7Bスケールでの人口ベーストレーニングループの代替ステップとして機能する。
本稿では,Absolute Zero Reasoner上でPopuLoRAをインスタンス化し,Absolute Zero Reasonerの計算整合単一エージェントベースラインと比較する。
一人のエージェントが容易に解決できる問題を自己校正し、人口は共進化的な武器競争に突入する。教師はますます複雑な問題を発生させ、生徒の解決率は変動し、問題空間のカバレッジは訓練を通して拡大している。
訓練時間の報酬が低いにもかかわらず、人口は3つのコードベンチマーク(HumanEval+、MBPP+、LiveCodeBench)と7つの数学ベンチマーク(AIME 24/25、AMC 23、MATH-500、Minerva、GSM8K、OlympiadBench)でベースラインを上回り、人口の最も弱いメンバーでさえ総じてベースラインを上回っている。
関連論文リスト
- Population-Aware Imitation Learning in Mean-field Games with Common Noise [2.394379536305005]
平均フィールドゲーム(MFG)は、相互作用するエージェントの集合的振る舞いをモデル化するための強力なフレームワークを提供する。
本稿では,一般化されたFactitious PlayとDeep Learningを用いて,専門家の集団認識ポリシを計算した数値フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-05T04:33:40Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Learning Robust Social Strategies with Large Language Models [7.697496386429445]
強化学習は,大規模言語モデル(LLM)を単一エージェント体制で整列させるのに有効である。
マルチエージェント設定における標準RLは、しばしば欠陥のある自己関心のポリシーに収束することを示す。
RLが不均衡に収束する傾向に対処するため、近年の対向学習認識アルゴリズムAdvantage Alignmentを適用した。
論文 参考訳(メタデータ) (2025-11-24T18:43:46Z) - Efficient Reinforcement Learning for Zero-Shot Coordination in Evolving Games [30.01934395713042]
ゼロショット調整はマルチエージェントゲーム理論における鍵となる課題である。
人口ベーストレーニングは、ゼロショット調整性能が良いことが証明されている。
論文 参考訳(メタデータ) (2025-11-14T08:59:22Z) - A Stronger Mixture of Low-Rank Experts for Fine-Tuning Foundation Models [22.457766373989365]
Low-Rank Adapters (LoRA) は、命令チューニングやドメイン適応など、様々な分野に広く採用されている。
LoRAの限られた表現能力に対処するため、複数のLoRAアダプタを組み込むためのMixture-of-Expert (MoE)が導入されている。
マルチスペースプロジェクションによる特徴学習手順の安定化と向上を図るため,MoE-LoRAの新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:58:53Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。