論文の概要: SkillFactory: Self-Distillation For Learning Cognitive Behaviors
- arxiv url: http://arxiv.org/abs/2512.04072v1
- Date: Wed, 03 Dec 2025 18:54:53 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:15:12.768265
- Title: SkillFactory: Self-Distillation For Learning Cognitive Behaviors
- Title(参考訳): SkillFactory:認知行動学習のための自己拡張
- Authors: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett,
- Abstract要約: 思考の長い連鎖を利用した推論モデルは、その答えの検証、バックトラック、再試行といった様々な認知的スキルを取り入れている。
これまでの研究では、ベース言語モデルがこれらのスキルを示すと、強化学習(RL)を用いてモデルをさらに訓練し、それらを活用できることが示されている。
我々の研究であるSkillFactoryは、RL以前の教師付き微調整段階において、これらのスキルを大まかに学習するための微調整モデルである。
- 参考スコア(独自算出の注目度): 43.89783092622495
- License:
- Abstract: Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.
- Abstract(参考訳): 思考の長い連鎖を利用した推論モデルは、その答えの検証、バックトラック、別の方法による再試行など、様々な認知的スキルを取り入れている。
これまでの研究では、ベース言語モデルがこれらのスキルを示すと、強化学習(RL)を用いてモデルをさらに訓練し、それらを活用できることが示されている。
ベースモデルが提示しないスキルをモデルに活用するには、どうすればよいのでしょう?
我々の研究であるSkillFactoryは、RL以前の教師付き微調整(SFT)段階において、これらのスキルを大まかに学習するための微調整モデルである。
我々のアプローチは、より強いモデルからの蒸留に頼るのではなく、モデル自体からのサンプルを使用して、それらのスキルのフォーマットでトレーニングデータを提供する。
これらの「銀」のSFTトレースは不完全かもしれないが、しかしながら、RL中にモデルの習得に有効である。
評価の結果,(1)SkillFactory SFTの初期化から始まるSkillFactoryモデルは,性能が低いにもかかわらずタスク後RLの難易度を一般化し,(2)認知能力が実際にモデルによって使用されていること,(3)RLed SkillFactoryモデルは,RLedベースモデルよりもドメイン外タスクの回帰性が高いこと,などが示唆された。
我々の研究は、RL以前に学んだ帰納的バイアスが、モデルが堅牢な認知スキルの使用を学ぶのに役立つことを示唆している。
関連論文リスト
- You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models [12.14455026524814]
限定的な推論能力を持つベースモデルに対するラベルフリーなRLアプローチの一般化可能性について検討する。
ラベルのないRLは,既存の推論能力に大きく依存していることがわかった。
本稿では,カリキュラム学習を利用して難解な問題を段階的に導入するラベルフリーRLの簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-11-07T01:05:11Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - From $f(x)$ and $g(x)$ to $f(g(x))$: LLMs Learn New Skills in RL by Composing Old Ones [68.68686526804909]
LLMは、既存のスキルを組み込むことで、RL中に真に新しいスキルを身につけることができることを示す。
実験により、ソースタスクで得られた構成スキルが、異なるターゲットタスクに転送されることを示す。
この転送は、ターゲットに対する構成的なトレーニングなしでも行われ、ターゲットの原子スキルに関する事前の知識のみを必要とする。
論文 参考訳(メタデータ) (2025-09-29T17:44:27Z) - OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling [29.818409458662344]
LlamaやQwenのような異なる言語モデルファミリーは、強化学習(RL)による後訓練中に異なる行動を示す
本研究では,MegaMath-Web-Proのような高品質な数学的コーパスがベースモデルとRL性能の両方を著しく改善することを明らかにする。
2段階の中間訓練戦略であるStable-then-Decayを導入し、ベースモデルを学習率を一定とした200Bトークンでトレーニングし、その後CoTに着目した3つのブランチで20Bトークンを学習速度を劣化させた。
論文 参考訳(メタデータ) (2025-06-25T14:58:13Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [17.407689582427437]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:57:08Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。