論文の概要: R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training
- arxiv url: http://arxiv.org/abs/2602.13103v2
- Date: Mon, 16 Feb 2026 09:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.652964
- Title: R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training
- Title(参考訳): R-diverse: セルフプレイ LLM トレーニングにおけるダイバーシティイリュージョンの軽減
- Authors: Gengsheng Li, Jinghan He, Shijie Wang, Dan Zhang, Ruiqi Liu, Renrui Zhang, Zijun Yao, Junfeng Fang, Haiyun Guo, Jinqiao Wang,
- Abstract要約: 反復的なチャレンジャーブートストラップループによる自己再生LDM推論。
R-Diverseは、より多くのイテレーション以上のゲインを持続し、常に以前のセルフプレイメソッドより優れています。
- 参考スコア(独自算出の注目度): 65.13759782915164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-play bootstraps LLM reasoning through an iterative Challenger-Solver loop: the Challenger is trained to generate questions that target the Solver's capabilities, and the Solver is optimized on the generated data to expand its reasoning skills. However, existing frameworks like R-Zero often exhibit non-sustained improvement, where early gains degrade as self-play continues. We identify a key failure mode, Diversity Illusion, where the Solver's training signals appear diverse yet collapse into recurring underlying patterns. It manifests as (1) Local Diversity Illusion, where diversity is enforced only within-batch, inducing cross-iteration mode cycling; and (2) Surface Diversity Illusion, where questions vary superficially but require near-identical reasoning skills. To mitigate them, we propose R-Diverse with two aligned innovations: Memory-Augmented Penalty (MAP), which uses a persistent memory bank to discourage recycling across iterations, and Skill-Aware Measurement (SAM), which evaluates diversity by the reasoning skills exercised rather than surface variation of questions. Across 10 math and general reasoning benchmarks, R-Diverse sustains gains over more iterations and consistently outperforms prior self-play methods. Code is available at https://github.com/Gengsheng-Li/R-Diverse.
- Abstract(参考訳): チャレンジャーはソルバーの能力をターゲットにした質問を生成するために訓練され、ソルバーはその推論スキルを拡張するために生成されたデータに最適化されている。
しかしながら、R-Zeroのような既存のフレームワークは、しばしば持続不可能な改善を示し、セルフプレイが継続するにつれて早期に利益が低下する。
重要な障害モードであるダイバーシティイリュージョンを特定し、ソルバーのトレーニング信号は様々に見えるが、根底にあるパターンに崩壊する。
1) 局所的な多様性 Illusion, 多様性はバッチ内でのみ実施され, クロスイテレーションモードのサイクリングが誘導される, 2) 表面の多様性 Illusion, 質問は表面的に異なるが, ほぼ同一の推論スキルを必要とする。
メモリバンクを用いて繰り返しのリサイクルを阻止するMAP(Memory-Augmented Penalty)と,質問の表面変化よりも多様な推論技術を用いて多様性を評価するSAM(Skill-Aware Measurement)の2つの方法を提案する。
10の数学と一般的な推論のベンチマークで、R-Diverseはより多くのイテレーション以上のゲインを持続し、以前のセルフプレイメソッドよりも一貫して優れています。
コードはhttps://github.com/Gengsheng-Li/R-Diverse.comで公開されている。
関連論文リスト
- Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs [126.45104018441698]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の中心パラダイムとなっている。
この失敗は、解の集合の多様性よりもむしろ局所的なトークンの振る舞いを規則化することに起因すると我々は主張する。
我々は,まれなハイレベル戦略を示す正しいソリューションを明示的に報酬する,ロールアウトレベルの目標であるUniqueness-Aware Reinforcement Learningを提案する。
論文 参考訳(メタデータ) (2026-01-13T17:48:43Z) - R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples [12.48027669682156]
Flow of Reasoning (FoR)は、最小限のデータで多様性を向上させることを目的としている。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-09T07:06:58Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。