論文の概要: Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning
- arxiv url: http://arxiv.org/abs/2602.14868v1
- Date: Mon, 16 Feb 2026 16:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.528407
- Title: Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning
- Title(参考訳): Goldilocks RL: 推論のためのスパースリワードの回避が難しいタスクのチューニング
- Authors: Ilia Mahrooghi, Aryo Lotfi, Emmanuel Abbe,
- Abstract要約: Goldilocksは教師主導のデータサンプリング戦略であり、学生モデルに対する各質問の難しさを予測することを目的としている。
生徒のパフォーマンスをサンプルに活用することにより、教師は生徒の進化する能力に継続的に適応する。
OpenMathReasoningデータセットでは、Goldilocksのデータサンプリングによって、標準GRPOでトレーニングされたモデルのパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 16.382902576950798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models. However, relying on sparse rewards makes this process highly sample-inefficient, as models must navigate vast search spaces with minimal feedback. While classic curriculum learning aims to mitigate this by ordering data based on complexity, the right ordering for a specific model is often unclear. To address this, we propose Goldilocks, a novel teacher-driven data sampling strategy that aims to predict each question's difficulty for the student model. The teacher model selects questions of appropriate difficulty for the student model, i.e., questions that are neither too easy nor too hard (Goldilocks principle), while training the student with GRPO. By leveraging the student's performance on seen samples, the teacher continuously adapts to the student's evolving abilities. On OpenMathReasoning dataset, Goldilocks data sampling improves the performance of models trained with standard GRPO under the same compute budget.
- Abstract(参考訳): 強化学習は、大規模言語モデルにおける推論能力を解き放つための強力なパラダイムとして登場した。
しかし、スパース報酬に頼ることで、モデルが最小限のフィードバックで広大な検索空間をナビゲートする必要があるため、このプロセスは非常に非効率である。
古典的なカリキュラム学習は、複雑性に基づいたデータの順序付けによってこれを緩和することを目的としているが、特定のモデルの正しい順序付けはしばしば不明確である。
そこで本研究では,教師主導型データサンプリング戦略であるGoldilocksを提案する。
教師モデルは、GRPOで生徒を訓練しながら、学生モデルにとって適切な困難さ、すなわち、簡単でも困難でもない質問(Goldilocksの原則)を選択する。
生徒のパフォーマンスをサンプルに活用することにより、教師は生徒の進化する能力に継続的に適応する。
OpenMathReasoningデータセットでは、Goldilocksのデータサンプリングは同じ計算予算の下で標準GRPOでトレーニングされたモデルのパフォーマンスを改善する。
関連論文リスト
- Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability [25.507069397981194]
本稿では,2段階のメタRLを実現することで,事前学習したモデルの潜在能力を高めて,学習を疎開し,二段階の報奨を得られることを示す。
以上の結果から, 有用なステップ石を生成できる能力は, 実際に難解な問題を解く能力を必要としないことが示唆された。
論文 参考訳(メタデータ) (2026-01-26T18:46:56Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - SMART: Simulated Students Aligned with Item Response Theory for Question Difficulty Prediction [38.7828715471869]
本稿では、シミュレーションされた学生を指導力で整列させる新しい方法SMART(Simulated Students Aligned with IRT)を提案する。
SMARTは、その改善された能力アライメントを活用することで、他の項目の難易度予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T15:41:38Z) - NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。
より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文 参考訳(メタデータ) (2025-07-02T17:30:24Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。
本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文 参考訳(メタデータ) (2024-01-12T18:36:29Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - Batch Reinforcement Learning from Crowds [24.717084423091865]
バッチ強化学習の欠点は、データに対する報酬の要求である。
行動クローンのような報酬の欠如に関する既存の設定は、人間から集めた最適なデモンストレーションに依存している。
本論文は、選好から報酬関数を学習することで、バッチ強化学習環境における報酬の欠如に対処する。
論文 参考訳(メタデータ) (2021-11-08T05:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。