論文の概要: Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings
- arxiv url: http://arxiv.org/abs/2505.13718v1
- Date: Mon, 19 May 2025 20:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.534972
- Title: Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings
- Title(参考訳): トレーニング前に警告:リソース制限設定で一般的な推論をアンロックする
- Authors: Safal Shrestha, Minwu Kim, Aadim Nepal, Anubhav Shrestha, Keith Ross,
- Abstract要約: 限定的な監督下での理性学習のための2段階の学習戦略を提案する。
最初の段階では、おもちゃのドメインからロングCoTを蒸留することでモデルを「ウォームアップ」します。
第2段階では、ターゲットドメインの限られた例を用いて、RLVRをウォームアップモデルに適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing effective reasoning-capable LLMs typically requires training using Reinforcement Learning with Verifiable Rewards (RLVR) or distillation with carefully curated Long Chain of Thoughts (CoT), both of which depend heavily on extensive training data. This creates a major challenge when the amount of quality training data is scarce. We propose a sample-efficient, two-stage training strategy to develop reasoning LLMs under limited supervision. In the first stage, we "warm up" the model by distilling Long CoTs from a toy domain, namely, Knights \& Knaves (K\&K) logic puzzles to acquire general reasoning skills. In the second stage, we apply RLVR to the warmed-up model using a limited set of target-domain examples. Our experiments demonstrate that this two-phase approach offers several benefits: $(i)$ the warmup phase alone facilitates generalized reasoning, leading to performance improvements across a range of tasks, including MATH, HumanEval$^{+}$, and MMLU-Pro. $(ii)$ When both the base model and the warmed-up model are RLVR trained on the same small dataset ($\leq100$ examples), the warmed-up model consistently outperforms the base model; $(iii)$ Warming up before RLVR training allows a model to maintain cross-domain generalizability even after training on a specific domain; $(iv)$ Introducing warmup in the pipeline improves not only accuracy but also overall sample efficiency during RLVR training. The results in this paper highlight the promise of warmup for building robust reasoning LLMs in data-scarce environments.
- Abstract(参考訳): 効果的な推論可能なLCMを設計するには、典型的には、強化学習(Reinforcement Learning with Verifiable Rewards, RLVR)や、慎重に硬化した思考のロングチェーン(Long Chain of Thoughts, CoT)を用いた蒸留(Reinforcement Learning with Verifiable Rewards, RLVR)のトレーニングが必要である。
高品質のトレーニングデータが不足している場合には,これは大きな課題になります。
限定的な監督下での推論LDMを開発するために,サンプル効率のよい2段階トレーニング戦略を提案する。
最初の段階では、Long CoTsをおもちゃのドメイン、すなわちKnights \&Knaves(K\&K)論理パズルから蒸留し、一般的な推論スキルを取得することでモデルを「ウォームアップ」する。
第2段階では、ターゲットドメインの限られた例を用いて、RLVRをウォームアップモデルに適用する。
我々の実験は、この2相アプローチがいくつかの利点をもたらすことを示した。
(i)ウォームアップフェーズだけで一般的な推論が容易になり、MATH、HumanEval$^{+}$、MMLU-Proなどのタスクでパフォーマンスが向上する。
$
(ii)$ ベースモデルとウォームアップモデルの両方が同じ小さなデータセット(\leq100$例)でトレーニングされている場合、ウォームアップモデルはベースモデルよりも一貫して優れます。
(iii)RLVRトレーニングの前にウォーミングアップすると、特定のドメインでトレーニングした後でも、モデルをドメイン間の一般化性を維持することができる。
(iv)$ パイプラインにおけるウォームアップの導入は、精度だけでなく、RLVRトレーニング時の全体のサンプル効率も向上する。
本稿では,データスカース環境におけるロバスト推論LDMの構築に向けたウォームアップの課題について述べる。
関連論文リスト
- J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge [24.607213170485743]
本稿では,リジェクションサンプリングによって収集されたリフレクション強化データセットを教師付きで調整した$textbfJ1-7B$を紹介する。
推論時に、さらなるパフォーマンス改善のためにシンプルなテスト時間スケーリング(STTS)戦略を適用します。
実験の結果、$textbfJ1-7B$は、以前の最先端のLM-as-a-Judgeを$ textbf4.8$%超え、STTSの下でより強いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2025-05-17T06:58:42Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Towards An Efficient LLM Training Paradigm for CTR Prediction [37.20013051226115]
大型言語モデル(LLM)は従来のクリックスルーレート(CTR)予測手法よりも大幅に優れている。
CTR予測のためにLLMを訓練するために、既存の研究の多くは'sliding-window'パラダイムを採用している。
本稿では,動的ターゲット分離(Dynamic Target isolation, DTI)と呼ばれる新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-02T19:43:35Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - RLx2: Training a Sparse Deep Reinforcement Learning Model from Scratch [23.104546205134103]
深層強化学習(DRL)モデルの訓練は通常、高いコストを必要とする。
DRLモデルの圧縮は、トレーニングアクセラレーションとモデル展開に大きな可能性を秘めている。
我々は,「textbfRigged textbfReinforcement textbfLearning textbfLottery (RLx2) 」という,新しいスパースDRLトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T12:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。