論文の概要: Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
- arxiv url: http://arxiv.org/abs/2601.18778v1
- Date: Mon, 26 Jan 2026 18:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.019381
- Title: Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
- Title(参考訳): 授業モデル:学習可能性の端における推論
- Authors: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe,
- Abstract要約: 本稿では,2段階のメタRLを実現することで,事前学習したモデルの潜在能力を高めて,学習を疎開し,二段階の報奨を得られることを示す。
以上の結果から, 有用なステップ石を生成できる能力は, 実際に難解な問題を解く能力を必要としないことが示唆された。
- 参考スコア(独自算出の注目度): 25.507069397981194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can a model learn to escape its own learning plateau? Reinforcement learning methods for finetuning large reasoning models stall on datasets with low initial success rates, and thus little training signal. We investigate a fundamental question: Can a pretrained LLM leverage latent knowledge to generate an automated curriculum for problems it cannot solve? To explore this, we design SOAR: A self-improvement framework designed to surface these pedagogical signals through meta-RL. A teacher copy of the model proposes synthetic problems for a student copy, and is rewarded with its improvement on a small subset of hard problems. Critically, SOAR grounds the curriculum in measured student progress rather than intrinsic proxy rewards. Our study on the hardest subsets of mathematical benchmarks (0/128 success) reveals three core findings. First, we show that it is possible to realize bi-level meta-RL that unlocks learning under sparse, binary rewards by sharpening a latent capacity of pretrained models to generate useful stepping stones. Second, grounded rewards outperform intrinsic reward schemes used in prior LLM self-play, reliably avoiding the instability and diversity collapse modes they typically exhibit. Third, analyzing the generated questions reveals that structural quality and well-posedness are more critical for learning progress than solution correctness. Our results suggest that the ability to generate useful stepping stones does not require the preexisting ability to actually solve the hard problems, paving a principled path to escape reasoning plateaus without additional curated data.
- Abstract(参考訳): モデルは、学習台地から逃れることを学ぶことができるか?
大規模な推論モデルを微調整するための強化学習手法は、初期成功率の低いデータセットでは行き詰まり、訓練信号がほとんどない。
事前学習したLLMは、潜伏知識を利用して、解決できない問題の自動化カリキュラムを生成することができるのか?
これを探求するために、メタRLを通してこれらの教育的なシグナルを表面化するように設計された自己改善フレームワーク、SOARを設計します。
モデルの教師のコピーは、学生のコピーのための合成問題を提案し、難題のごく一部に改良を加えて報われる。
批判的に言えば、SOARは本質的な代行報酬ではなく、測定された学生の進歩のカリキュラムを基礎にしている。
数学ベンチマークの最も難しい部分集合 (0/128 の成功) について検討した。
まず,2段階のメタRLの実現が可能であることを示す。
第2に、グラウンドド報酬は、従来のLLM自己プレイで使用される本質的な報酬スキームよりも優れており、彼らが通常示す不安定性と多様性の崩壊モードを確実に回避している。
第三に、生成した質問を分析することで、解の正しさよりも構造的品質と良質さが学習の進行に欠かせないことが分かる。
以上の結果から, 既往の段石生成能力は, 既往の難題解決能力を必要としないことが示唆された。
関連論文リスト
- Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。
本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。
データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2025-10-03T06:32:10Z) - Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning [37.20632079882874]
DACE(Difficulty Aware Certainty guided Exploration)を紹介する。
政策の成功率に基づいて、探索的エクスプロイトのトレードオフをバランスさせる。
挑戦的な数学的推論ベンチマーク(AIME, MATH)の実験は、DACEが強いベースラインを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-29T08:57:54Z) - Can Large Models Teach Student Models to Solve Mathematical Problems Like Human Beings? A Reasoning Distillation Method via Multi-LoRA Interaction [6.695255921627406]
大規模言語モデル(LLM)は強力な数学的推論能力を持つが、数十億のパラメータに依存している。
既存の手法は通常、LCMを利用して大量のデータを生成してクラミングトレーニングを行う。
数学的推論蒸留(LoRID)のためのマルチロラ相互作用に基づく新しい手法を提案する。
LoRIDは、特にGSM8Kデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-18T15:56:10Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [58.62311540316617]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - Unleash Model Potential: Bootstrapped Meta Self-supervised Learning [12.57396771974944]
機械学習の長期的な目標は、監督なしで少数のデータから一般的な視覚表現を学習することである。
自己指導型学習とメタラーニングは、この目標を達成するための2つの有望なテクニックであるが、どちらもメリットを部分的に捉えているだけである。
本稿では,人間の学習過程をシミュレートすることを目的とした,ブートストラップ型メタ自己監視学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T02:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。