論文の概要: Chain-based Distillation for Effective Initialization of Variable-Sized Small Language Models
- arxiv url: http://arxiv.org/abs/2605.07783v1
- Date: Fri, 08 May 2026 14:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.108493
- Title: Chain-based Distillation for Effective Initialization of Variable-Sized Small Language Models
- Title(参考訳): 可変大小言語モデルの有効初期化のための連鎖型蒸留法
- Authors: Boyu Shi, YiCheng Jiang, Chang Liu, Qiufeng Wang, Xu Yang, Xin Geng,
- Abstract要約: 大規模言語モデル(LLM)は強力なパフォーマンスを実現するが、リソース制約のある環境でのデプロイにはコストがかかる。
スクラッチから小さな言語モデル(SLM)を訓練するには計算コストがかかる。
可変サイズの言語モデルを効率的に初期化するためのスケーラブルなパラダイムであるtextbfChain-based Distillation (CBD) を提案する。
- 参考スコア(独自算出の注目度): 36.23126542075003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve strong performance but remain costly to deploy in resource-constrained settings. Training small language models (SLMs) from scratch is computationally expensive, while conventional knowledge distillation requires repeated access to large teachers for different target sizes, leading to poor scalability. To solve these problems, we propose \textbf{Chain-based Distillation (CBD)}, a scalable paradigm for efficiently initializing variable-sized language models. A sparse and limited sequence of intermediate models (called anchors) is constructed via stepwise distillation, forming a distillation chain that progressively transfers knowledge from the source LLMs. To support heterogeneous settings, we introduce \emph{bridge distillation} for cross-architecture and cross-vocabulary transfer. Models of variable sizes are initialized via parameter interpolation between adjacent anchors, eliminating repeated large teacher inference. Experiments show that the proposed method substantially improves efficiency and downstream performance. A 138M-parameter SLM without recovery pre-training, outperforms scratch-trained models on a 10B-token corpus on the specific task. CBD also demonstrates versatility in heterogeneous settings for initialize models with different architectures and vocabularies.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なパフォーマンスを実現するが、リソース制約のある環境でのデプロイにはコストがかかる。
スクラッチから小さな言語モデル(SLM)を訓練するには計算コストがかかるが、従来の知識蒸留では、異なるターゲットサイズの教師に繰り返しアクセスする必要があるため、スケーラビリティが低下する。
これらの問題を解決するために,変数サイズの言語モデルを効率的に初期化するスケーラブルなパラダイムであるCBD(textbf{Chain-based Distillation)を提案する。
中間モデル(アンカーと呼ばれる)のスパースで限定的な配列は、段階的に蒸留することで構築され、元のLLMから知識を段階的に伝達する蒸留連鎖を形成する。
ヘテロジニアスな設定をサポートするために,クロスアーキテクチャとクロスボキャブラリ転送のための 'emph{bridge distillation} を導入する。
変数サイズのモデルは、隣接するアンカー間のパラメータ補間によって初期化され、大きな教師の推論が繰り返される。
実験の結果,提案手法は効率と下流性能を大幅に向上させることがわかった。
回復予備訓練のない128MパラメーターSLMは、特定のタスクで10Bトーケンコーパス上で、スクラッチトレーニングされたモデルを上回る性能を発揮する。
CBDはまた、異なるアーキテクチャと語彙でモデルを初期化するヘテロジニアスな設定において、汎用性を示す。
関連論文リスト
- Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models [2.83595986479415]
タスク固有データに対する細調整型マルチモーダル言語モデル(MLLM)は、下流アプリケーションの性能向上に有効な方法である。
この問題を緩和しようとする既存の手法は、言語デコーダの深い層を微調整した場合や、モデルのサイズが大きくなるにつれて、効果が低下する。
本稿では,MLLMの新しい細粒度調整手法であるModel-Dowserを提案する。
論文 参考訳(メタデータ) (2026-02-04T12:56:27Z) - Model-Aware Tokenizer Transfer [46.13517417540154]
Model-Aware Tokenizer Transfer (MATT) は、モデル内部をトークン化プロセスに組み込む手法である。
MATTは、ソースモデルからターゲットモデルにトーケン間通信パターンを蒸留する注意影響モデリング(AIM)の目的を導入している。
実験の結果、MATTはオリジナルのモデルの性能のかなりの部分をGPU時間以内に回復し、ベースラインを上回った。
論文 参考訳(メタデータ) (2025-10-24T18:27:36Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。