論文の概要: Guided Self-Evolving LLMs with Minimal Human Supervision
- arxiv url: http://arxiv.org/abs/2512.02472v1
- Date: Tue, 02 Dec 2025 07:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.757348
- Title: Guided Self-Evolving LLMs with Minimal Human Supervision
- Title(参考訳): ミニマル・ヒューマン・スーパービジョンによる自己進化型LDM
- Authors: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu,
- Abstract要約: 無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。
R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。
R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。
- 参考スコア(独自算出の注目度): 53.111086364268566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.
- Abstract(参考訳): AIの自己進化は、モデルが自身の学習経験から自律的に知識を取得し、洗練し、内部化する超知性への道として長い間考えられてきた。
しかし実際には、無誘導の自己進化システムは、訓練が進むにつれて急速に、あるいは悪化することが多い。
これらの失敗は、モデルが自身のバイアスを強化し、低エントロピーの振る舞いに収束するため、概念の漂流、多様性の崩壊、誤った進化といった問題から生じる。
人間の監督への依存を最小限に抑えつつ、モデルが安定かつ制御可能な方法で自己開発できるように、R-Fewは、コンテキスト内接地と混合トレーニングによる軽量な人間の監視を取り入れたガイド付きセルフプレイチャレンジャー・ソルバーフレームワークである。
それぞれのイテレーションで、チャレンジャーは人工的な質問生成をガイドするために、人間のラベル付きサンプルの小さなセットをサンプリングし、Solverはオンラインの難易度ベースのカリキュラムの下で、人間と合成のサンプルを共同でトレーニングする。
数学と一般的な推論ベンチマーク全体で、R-Fewは一貫性と反復的な改善を達成している。
例えば、Qwen3-8B-Baseは数学のタスクでR-Zeroよりも+3.0ポイント向上し、ジェネラル・レーソナーと同等のパフォーマンスを達成した。
アブレーション研究は、基礎的挑戦者訓練とカリキュラムに基づく問題解決訓練の相補的な貢献を確認し、さらに分析により、R-Fewはドリフトを緩和し、より安定で制御可能な共進化力学をもたらすことが示された。
関連論文リスト
- PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards [16.15363954575401]
大規模言語モデルの訓練後の現在の技術は、費用のかかる人事監督や外部検証に頼っている。
PRISMは、プロセス・リワード・モデル(Process Reward Model, PRM)を用いて、モデルの内部信頼度とともに学習をガイドする統合トレーニングフレームワークである。
PRMと自己確実性を効果的に組み合わせることで,安定したトレーニングとテスト時間性能の両立が期待できることを示す。
論文 参考訳(メタデータ) (2026-01-08T08:09:29Z) - R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - Absolute Zero: Reinforced Self-play Reasoning with Zero Data [57.30662797376754]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z) - Advancing Brain Imaging Analysis Step-by-step via Progressive Self-paced Learning [0.5840945370755134]
適応型・進行型ペーシング・蒸留機構を応用したPSPD(Progressive Self-Paced Distillation)フレームワークを提案する。
我々は、アルツハイマー病神経画像イニシアチブ(ADNI)データセットを用いて、様々な畳み込みニューラルネットワークにおけるPSPDの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2024-07-23T02:26:04Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。