論文の概要: Can an Easy-to-Hard Curriculum Make Reasoning Emerge in Small Language Models? Evidence from a Four-Stage Curriculum on GPT-2
- arxiv url: http://arxiv.org/abs/2505.11643v1
- Date: Fri, 16 May 2025 19:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.759791
- Title: Can an Easy-to-Hard Curriculum Make Reasoning Emerge in Small Language Models? Evidence from a Four-Stage Curriculum on GPT-2
- Title(参考訳): 小言語モデルで簡単に学習できるカリキュラムは創発できるか? GPT-2上の4段階のカリキュラムから
- Authors: Xiang Fu,
- Abstract要約: 発達的に順序付けられたカリキュラムは、小言語モデルにおける透明性とサンプル効率を著しく改善することを示した。
最終回答の成功は、依然として従来のランニングを約30%遅れており、私たちのサリエンシ調査は、最も難しい段階で言語知識の頭を抱えています。
- 参考スコア(独自算出の注目度): 0.8423417997128777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that a developmentally ordered curriculum markedly improves reasoning transparency and sample-efficiency in small language models (SLMs). Concretely, we train Cognivolve, a 124 M-parameter GPT-2 model, on a four-stage syllabus that ascends from lexical matching to multi-step symbolic inference and then evaluate it without any task-specific fine-tuning. Cognivolve reaches target accuracy in half the optimization steps of a single-phase baseline, activates an order-of-magnitude more gradient-salient reasoning heads, and shifts those heads toward deeper layers, yielding higher-entropy attention that balances local and long-range context. The same curriculum applied out of order or with optimizer resets fails to reproduce these gains, confirming that progression--not extra compute--drives the effect. We also identify open challenges: final-answer success still lags a conventional run by about 30%, and our saliency probe under-detects verbal-knowledge heads in the hardest stage, suggesting directions for mixed-stage fine-tuning and probe expansion.
- Abstract(参考訳): 本研究では,小言語モデル(SLM)の透明性とサンプル効率を著しく向上させることを実証する。
具体的には,124MパラメータのGPT-2モデルであるCognivolveを,語彙マッチングから多段階のシンボル推論へと上昇する4段階のシラバス上で訓練し,タスク固有の微調整なしで評価する。
Cognivolveは単相ベースラインの半分の最適化ステップで目標精度に達し、より勾配に順応した推論ヘッドを起動し、それらのヘッドをより深い層にシフトさせ、局所的および長距離的コンテキストのバランスをとる高エントロピーの注意を与える。
順序やオプティマイザリセットで適用された同じカリキュラムは、これらのゲインを再現することができず、進行が、余分な計算ではないことを確認します。
最終回答の成功は、従来よりも約30%遅れており、我々のサリエンシプローブは、最も難しい段階で言語知識の頭下を探索し、混合段階の微調整とプローブ拡大の方向性を示唆している。
関連論文リスト
- Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-02T05:16:17Z) - Corrections Meet Explanations: A Unified Framework for Explainable Grammatical Error Correction [29.583603444317855]
本稿では,説明・修正タスクを生成的に統合した統一的な説明可能なGECフレームワークであるEXGECを紹介する。
様々なNLPモデル(BART、T5、Llama3)の結果、EXGECモデルは両方のタスクにおいてシングルタスクベースラインを超えている。
論文 参考訳(メタデータ) (2025-02-21T07:42:33Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - Multi-Step Reasoning in Korean and the Emergent Mirage [0.0]
HRMCR(HAE-RAE Multi-Step Commonsense Reasoning)は,文化的に特定の文脈で多段階推論を行う大規模言語モデルの能力を評価するためのベンチマークである。
質問はテンプレートやアルゴリズムを通じて自動的に生成され、韓国の文化知識をシーケンシャルな推論ステップに統合する必要がある。
実験の結果, (2 cdot 1025) 未満の FLOP のトレーニングモデルでは, ほぼゼロに近い性能を示しながら, 問題の解決に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-01-10T05:07:27Z) - Improving Discrete Optimisation Via Decoupled Straight-Through Gumbel-Softmax [4.427325225595673]
提案手法は,複数のタスクやデータセットにまたがる広範な実験を通じて,元のST-GSを大幅に向上することを示す。
本研究は,ディープラーニングにおける離散最適化の改善に寄与する。
論文 参考訳(メタデータ) (2024-10-17T08:44:57Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。