論文の概要: Where to Begin: Efficient Pretraining via Subnetwork Selection and Distillation
- arxiv url: http://arxiv.org/abs/2510.07227v1
- Date: Wed, 08 Oct 2025 16:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.644795
- Title: Where to Begin: Efficient Pretraining via Subnetwork Selection and Distillation
- Title(参考訳): どこに着くか: サブネットワーク選択と蒸留による効率的なプレトレーニング
- Authors: Arjun Krishnakumar, Rhea Sanjay Sukthanker, Hannan Javed Mahadik, Gabriela Kadlecová, Vladyslav Moroshan, Timur Carstensen, Frank Hutter, Aaron Klein,
- Abstract要約: 小言語モデル(SLM)は、Large Language Models(LLM)に代わる効率的でアクセスしやすい選択肢を提供する。
本稿では,SLMの事前学習のためのシンプルで効果的なフレームワークを提案する。
すべてのコードとモデルをリリースし、大規模にコスト効率の良い小言語モデル開発への実践的で再現可能なパスを提供します。
- 参考スコア(独自算出の注目度): 33.07085290528539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small Language models (SLMs) offer an efficient and accessible alternative to Large Language Models (LLMs), delivering strong performance while using far fewer resources. We introduce a simple and effective framework for pretraining SLMs that brings together three complementary ideas. First, we identify structurally sparse sub-network initializations that consistently outperform randomly initialized models of similar size under the same compute budget. Second, we use evolutionary search to automatically discover high-quality sub-network initializations, providing better starting points for pretraining. Third, we apply knowledge distillation from larger teacher models to speed up training and improve generalization. Together, these components make SLM pretraining substantially more efficient: our best model, discovered using evolutionary search and initialized with LLM weights, matches the validation perplexity of a comparable Pythia SLM while requiring 9.2x fewer pretraining tokens. We release all code and models at https://github.com/whittle-org/whittle/, offering a practical and reproducible path toward cost-efficient small language model development at scale.
- Abstract(参考訳): 小言語モデル(SLM)は、LLM(Large Language Models)に代わる、効率的でアクセスしやすい代替手段を提供する。
本稿では,3つの相補的なアイデアをまとめる,SLMの事前学習のためのシンプルで効果的なフレームワークを提案する。
まず、同じ計算予算の下で、同じ大きさのランダムに初期化されたモデルより一貫して優れる構造的にスパースなサブネットワーク初期化を同定する。
第二に、進化的探索を用いて、高品質なサブネットワーク初期化を自動的に発見し、事前学習のためのより良い出発点を提供する。
第3に、より大規模な教師モデルからの知識蒸留を適用して、学習のスピードアップと一般化の改善を図る。
我々の最良のモデルは、進化的探索を用いて発見され、LLM重みで初期化され、9.2倍少ない事前学習トークンを必要としながら、同等のPythia SLMの検証難易度と一致する。
私たちはすべてのコードとモデルをhttps://github.com/whittle-org/whittle/でリリースします。
関連論文リスト
- Learning Dynamics of Meta-Learning in Small Model Pretraining [2.6684726101845]
我々は,一階のMAMLとサブセットメイクLM事前学習を統合した。
LLama-style decoder-only model(11M-570M params) を4つの生成する。
多くの設定や実世界のアプリケーションで基本的なNLPタスクで評価する。
論文 参考訳(メタデータ) (2025-08-04T08:34:30Z) - It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs [15.263422862969803]
大規模言語モデルのトレーニング時間圧縮アルゴリズムであるBackSlashを導入する。
GGモデルに基づくLLM最適化のための統一エンドツーエンドフレームワークを提案する。
私たちの貢献は3倍です。
DeepShapeは、トレーニング後の正規化手法で、体重分布をGGプロファイルにマッチさせる。
RF8は、GG-distributed-priord BackSlashトレーニング用に設計された、コンパクトでハードウェア効率の良い8ビット浮動小数点演算フォーマットである。
論文 参考訳(メタデータ) (2025-05-31T09:49:17Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。