論文の概要: SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
- arxiv url: http://arxiv.org/abs/2412.08347v1
- Date: Wed, 11 Dec 2024 12:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:11.624027
- Title: SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
- Title(参考訳): SmolTulu: サイズ比のバッチ化による学習率の向上は,SLMにおける推論の改善につながる
- Authors: Sultan Alrashed,
- Abstract要約: 本稿では,Hugingface の SmolLM2-1.7B ベースモデルを強化するために,AllenAI の Tulu 3 ポストトレーニングパイプラインを適応した命令チューニング言語モデル SmolTulu を提案する。
ARCやGSM8Kのような推論タスクは高い学習率からバッチサイズ比の恩恵を受ける一方、HellaSwagやIFEvalのようなパターン認識タスクは低い比率で最適な性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present SmolTulu-1.7b-Instruct, referenced in this report as SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model. Through comprehensive empirical analysis using a 135M parameter model, we demonstrate that the relationship between learning rate and batch size significantly impacts model performance in a task-dependent manner. Our findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from higher learning rate to batch size ratios, while pattern recognition tasks such as HellaSwag and IFEval show optimal performance with lower ratios. These insights informed the development of SmolTulu, which achieves state-of-the-art performance among sub-2B parameter models on instruction following, scoring 67.7% on IFEval ($\Delta$11%), and mathematical reasoning with 51.6% on GSM8K ($\Delta$3.4%), with an alternate version achieving scoring 57.1% on ARC ($\Delta5.4%$). We release our model, training recipes, and ablation studies to facilitate further research in efficient model alignment, demonstrating that careful adaptation of optimization dynamics can help bridge the capability gap between small and large language models.
- Abstract(参考訳): 本稿では,Hugingface の SmolLM2-1.7B ベースモデルを強化するために,AllenAI の Tulu 3 ポストトレーニングパイプラインを適応させた命令チューニング言語モデルである SmolTulu-DPO-1130 について述べる。
135Mパラメータモデルを用いた包括的経験分析により,学習率とバッチサイズの関係がタスク依存的なモデル性能に大きく影響を与えることを示した。
ARCやGSM8Kのような推論タスクは高い学習率からバッチサイズ比の恩恵を受ける一方、HellaSwagやIFEvalのようなパターン認識タスクは低い比率で最適な性能を示す。
これらの知見は、以下の命令に基づいてサブ2Bパラメーターモデル間で最先端のパフォーマンスを達成し、IFEval(11%)で67.7%、GSM8K(3.4%)で51.6%、ARC(5.4%)で57.1%の数学的推論を達成したSmolTuluの開発を示唆した。
我々は、モデル、トレーニングレシピ、アブレーション研究をリリースし、効率的なモデルアライメントのさらなる研究を促進するとともに、最適化ダイナミクスの注意深く適応することが、小規模言語モデルと大規模言語モデルの能力ギャップを埋める助けとなることを実証する。
関連論文リスト
- Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts [0.86325068644655]
我々はタスク固有のデータセットを使用し、50億と40億のパラメータを持つ2つのプルーニングLLaMAモデルを微調整する。
本稿では,LLaMAモデルをタスク特異性と即効性という2つの制約の下で微調整する手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T22:34:27Z) - GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。
エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。
我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文 参考訳(メタデータ) (2024-09-18T17:00:20Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。