論文の概要: On the Generalization Gap in Self-Evolving Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2606.01075v1
- Date: Sun, 31 May 2026 07:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.193391
- Title: On the Generalization Gap in Self-Evolving Language Model Reasoning
- Title(参考訳): 自己進化型言語モデル推論における一般化ギャップについて
- Authors: Zhenting Qi, Susanna Maria Baby, Stefanie Anna Baby, Kan Yuan, Andrew Tomkins, Tu Vu, Da-Cheng Juan, Cyrus Rashtchian,
- Abstract要約: 統合オフライン自己進化フレームワークにおける4つの代表的な戦略を解析する。
自己進化はベースモデルよりも一貫して改善されるが、過剰なトレーニング計算の後に高原が投資される。
Gemma 12Bはオラクルの教師付きトレーニングにほぼ一致するので,大規模モデルによるマルチターン批評家のリビジョンは,強力な自己進化性能に達することが判明した。
- 参考スコア(独自算出の注目度): 16.207017999660653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work suggests that large language models (LLMs) can improve through self-evolution (SE), using supervision signals generated by the model itself. In this work, we ask: under a strict closed-loop setup, where the self-evolution algorithm has access only to an unlabeled prompt set and a base model, how close can internally generated supervision come to oracle-supervised training? We analyze four representative strategies in a unified offline self-evolution framework: single-round verification, multi-turn revision with feedback, iterative training, and curriculum learning. Our primary experiments use Knights and Knaves (KK) logical reasoning tasks, which provide deterministic solutions, controlled difficulty levels, and a clean testbed for easy-to-hard generalization. We first show that self-evolution consistently improves over the base model, but plateaus after excessive training compute is invested, and eventually still leaves a non-trivial gap to oracle supervision. We find that multi-turn critic-revision with large models can reach strong self-evolution performance, with Gemma 12B nearly matching oracle-supervised training. Beyond Knights and Knaves, we also evaluate self-evolution on real-world reasoning benchmarks, where gains are also modest. Overall, our results characterize when closed-loop self-evolution can help and show how internally generated supervision remains insufficient under this minimal formulation.
- Abstract(参考訳): 最近の研究は、大規模言語モデル(LLM)が自己進化(SE)を通じてモデル自体によって生成された監視信号を用いて改善できることを示唆している。
厳密なクローズドループのセットアップでは、自己進化アルゴリズムはラベルのないプロンプトセットとベースモデルにのみアクセスでき、内部で生成された監視がオラクルが監督するトレーニングにどの程度近いか?
単一ラウンド検証,フィードバックによるマルチターンリビジョン,反復学習,カリキュラム学習という,統合されたオフライン自己進化フレームワークにおける4つの代表的な戦略を分析した。
第一実験では、Knights and Knaves (KK) 論理的推論タスクを使用し、決定論的解、制御難易度、および難易度一般化のためのクリーンなテストベッドを提供する。
最初に、自己進化はベースモデルよりも一貫して改善されていることを示すが、過剰なトレーニング計算が投資された後の台地は、最終的には、オラクルの監督に非自明なギャップを残している。
Gemma 12Bはオラクルの教師付きトレーニングにほぼ一致するので,大規模モデルによるマルチターン批評家のリビジョンは,強力な自己進化性能に達することが判明した。
KnightsやKnaves以外にも、実際の推論ベンチマークにおける自己進化の評価も行っています。
概して, 閉ループ自己進化は, この最小限の定式化の下で内部的に生成した監督が不十分であることを示す。
関連論文リスト
- Confidence-Orchestrated Self-Evolution against Uncertain LLM Feedback [8.780008955074967]
自己進化型大規模言語モデル(LLM)は、独自のトレーニングタスクとソリューションを生成し、人事監督への依存を減らすことで学習する。
我々は,LLMの本質的信頼度を軽度不確実性信号として用いて学習を変調するCOSE(Confidence-Orchestrated Self-Evolution)を提案する。
論文 参考訳(メタデータ) (2026-05-27T06:07:10Z) - Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in Large Language Models [51.45122910254346]
強化学習(RL)に基づくポストトレーニングは、トレーニングドメインを超えた大規模言語モデルの推論性能を改善することが多い。
Supervised Fine-tuning (SFT) はしばしば一般的な忘れる能力をもたらす。
制御された実験装置を用いてRL一般化を探索する特徴レベル力学解析手法を提案する。
論文 参考訳(メタデータ) (2026-04-27T21:22:34Z) - When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning [30.162034423611292]
マルチモーダル推論のための教師なし自己進化学習フレームワークを提案する。
ヒューマンアノテートされた回答や外部報酬モデルを用いることなく、安定したパフォーマンス向上を実現する。
提案手法は5つの数学的推論ベンチマークにおける推論性能と一般化を一貫して改善する。
論文 参考訳(メタデータ) (2026-03-22T15:22:19Z) - Guided Self-Evolving LLMs with Minimal Human Supervision [53.111086364268566]
無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。
R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。
R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。
論文 参考訳(メタデータ) (2025-12-02T07:06:11Z) - Incentivizing LLMs to Self-Verify Their Answers [22.387551134333084]
本稿では,大規模言語モデルにインセンティブを与え,自己検証を行うフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
複数の数学的推論ベンチマークの実験は、我々のモデルがトレーニング後の性能を改善するだけでなく、効果的なテスト時間スケーリングを可能にすることを示している。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges [15.975023196507841]
大規模言語モデルは、しばしば、トレーニング分布を超えて、長さの一般化と複雑な問題インスタンスの解決に苦労する。
モデルが自身のソリューションから反復的に生成し、学習する自己改善アプローチを提案する。
本研究は,制御された弱強曲線がモデル論理外挿法を体系的に教える方法を示した。
論文 参考訳(メタデータ) (2025-02-03T18:45:22Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。