論文の概要: Guided Self-Evolving LLMs with Minimal Human Supervision
- arxiv url: http://arxiv.org/abs/2512.02472v1
- Date: Tue, 02 Dec 2025 07:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.757348
- Title: Guided Self-Evolving LLMs with Minimal Human Supervision
- Title(参考訳): ミニマル・ヒューマン・スーパービジョンによる自己進化型LDM
- Authors: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu,
- Abstract要約: 無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。
R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。
R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。
- 参考スコア(独自算出の注目度): 53.111086364268566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.
- Abstract(参考訳): AIの自己進化は、モデルが自身の学習経験から自律的に知識を取得し、洗練し、内部化する超知性への道として長い間考えられてきた。
しかし実際には、無誘導の自己進化システムは、訓練が進むにつれて急速に、あるいは悪化することが多い。
これらの失敗は、モデルが自身のバイアスを強化し、低エントロピーの振る舞いに収束するため、概念の漂流、多様性の崩壊、誤った進化といった問題から生じる。
人間の監督への依存を最小限に抑えつつ、モデルが安定かつ制御可能な方法で自己開発できるように、R-Fewは、コンテキスト内接地と混合トレーニングによる軽量な人間の監視を取り入れたガイド付きセルフプレイチャレンジャー・ソルバーフレームワークである。
それぞれのイテレーションで、チャレンジャーは人工的な質問生成をガイドするために、人間のラベル付きサンプルの小さなセットをサンプリングし、Solverはオンラインの難易度ベースのカリキュラムの下で、人間と合成のサンプルを共同でトレーニングする。
数学と一般的な推論ベンチマーク全体で、R-Fewは一貫性と反復的な改善を達成している。
例えば、Qwen3-8B-Baseは数学のタスクでR-Zeroよりも+3.0ポイント向上し、ジェネラル・レーソナーと同等のパフォーマンスを達成した。
アブレーション研究は、基礎的挑戦者訓練とカリキュラムに基づく問題解決訓練の相補的な貢献を確認し、さらに分析により、R-Fewはドリフトを緩和し、より安定で制御可能な共進化力学をもたらすことが示された。
関連論文リスト
- R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - Absolute Zero: Reinforced Self-play Reasoning with Zero Data [57.30662797376754]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。