論文の概要: Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
- arxiv url: http://arxiv.org/abs/2509.15194v2
- Date: Wed, 01 Oct 2025 05:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.752141
- Title: Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
- Title(参考訳): ラベルのない言語モデルを進化させる: 多数派が選択を駆動し、新規性は変化を促進する
- Authors: Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu,
- Abstract要約: 大規模言語モデル(LLM)は、検証可能な報酬(RLVR)からの強化学習でますます訓練されている
本稿では,ラベルのないフレームワークEVOL-RLを提案する。
EVOL-RLは、多数派のみのベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 74.75716642635484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly trained with reinforcement learning from verifiable rewards (RLVR), yet real-world deployment demands models that can self-improve without labels or external judges. Existing self-improvement approaches primarily rely on self-confirmation signals (e.g., confidence, entropy, or consistency) to generate rewards. This reliance drives models toward over-confident, majority-favored solutions, causing an entropy collapse that degrades pass@n and reasoning complexity. To address this, we propose EVOL-RL, a label-free framework that mirrors the evolutionary principle of balancing selection with variation. Concretely, EVOL-RL retains the majority-voted answer as an anchor for stability, but adds a novelty-aware reward that scores each sampled solution by how different its reasoning is from other concurrently generated responses. This majority-for-stability + novelty-for-exploration rule mirrors the variation-selection principle: selection prevents drift, while novelty prevents collapse. Evaluation results show that EVOL-RL consistently outperforms the majority-only baseline; e.g., training on label-free AIME24 lifts Qwen3-4B-Base AIME25 pass@1 from baseline's 4.6% to 16.4%, and pass@16 from 18.5% to 37.9%. EVOL-RL not only prevents in-domain diversity collapse but also improves out-of-domain generalization (from math reasoning to broader tasks, e.g., GPQA, MMLU-Pro, and BBEH). The code is available at: https://github.com/YujunZhou/EVOL-RL.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検証可能な報酬(RLVR)から強化学習によって、ますます訓練されている。
既存の自己改善アプローチは主に報酬を生成するための自己確認信号(例えば、信頼、エントロピー、一貫性)に依存している。
この依存はモデルを過信で多数派好意的なソリューションへと推進し、エントロピー崩壊を引き起こし、pass@nを低下させ、複雑さを推論する。
そこで本稿では,ラベルフリーフレームワークであるEVOL-RLを提案する。
具体的には、EVOL-RLは、多数投票された回答を安定性のアンカーとして保持するが、その推論が他の同時生成された応答とどのように異なるかによって、各サンプリングされた解をスコアする新規に認識された報酬を追加する。
この「安定のための多数決」と「探索のための新規性」というルールは、変分選択の原則を反映している: 選択はドリフトを防ぎ、新規性は崩壊を防いでいる。
評価の結果、EVOL-RLは多数派のみのベースラインを一貫して上回り、例えば、ラベルのないAIME24のトレーニングはQwen3-4B-Base AIME25 pass@1をベースラインの4.6%から16.4%、pass@16を18.5%から37.9%に引き上げている。
EVOL-RLはドメイン内多様性の崩壊を防ぐだけでなく、領域外一般化(数学推論からより広範なタスク(例えば、GPQA、MMLU-Pro、BBEH)まで)も改善する。
コードはhttps://github.com/YujunZhou/EVOL-RL.comで公開されている。
関連論文リスト
- The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [58.559544190947584]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR [102.05010188302428]
RLVRトレーニングのためのオンライン変分問題合成(SvS)戦略を提案する。
この戦略は、トレーニング中のポリシーのエントロピーを効果的に維持し、標準のRLVRと比較してPass@kを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-19T17:42:45Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。