論文の概要: KDFlow: A User-Friendly and Efficient Knowledge Distillation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.01875v1
- Date: Mon, 02 Mar 2026 13:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.898247
- Title: KDFlow: A User-Friendly and Efficient Knowledge Distillation Framework for Large Language Models
- Title(参考訳): KDFlow: 大規模言語モデルのためのユーザフレンドリーで効率的な知識蒸留フレームワーク
- Authors: Songming Zhang, Xue Zhang, Tong Zhang, Bojie Hu, Yufeng Chen, Jinan Xu,
- Abstract要約: 知識蒸留(KD)は、大規模言語モデル(LLM)をより小さなものに圧縮するために必要な技術である。
我々は,SGLangを教師推論に用い,疎結合アーキテクチャを特徴とするtextbfKDFlowを提案する。
我々のフレームワークは、オフ・ポリティクスとオン・ポリティクスの蒸留の両方をサポートし、高度でユーザフレンドリーなAPIを通じて、クロス・トケナイザーKDのためのKDアルゴリズムを組み込んでいる。
- 参考スコア(独自算出の注目度): 45.26304817538935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation (KD) is an essential technique to compress large language models (LLMs) into smaller ones. However, despite the distinct roles of the student model and the teacher model in KD, most existing frameworks still use a homogeneous training backend (e.g., FSDP and DeepSpeed) for both models, leading to suboptimal training efficiency. In this paper, we present a novel framework for LLM distillation, termed \textbf{KDFlow}, which features a decoupled architecture and employs SGLang for teacher inference. By bridging the training efficiency of FSDP2 and the inference efficiency of SGLang, KDFlow achieves full utilization of both advantages in a unified system. Moreover, instead of transferring full logits across different processes, our framework only transmits the teacher's hidden states using zero-copy data transfer and recomputes the logits on the student side, effectively balancing the communication cost and KD performance. Furthermore, our framework supports both off-policy and on-policy distillation and incorporates KD algorithms for cross-tokenizer KD through highly extensible and user-friendly APIs. Experiments show that KDFlow can achieve \textbf{1.44$\times$ to 6.36$\times$} speedup compared to current KD frameworks, enabling researchers to rapidly prototype and scale LLM distillation with minimal engineering overhead. Code is available at: https://github.com/songmzhang/KDFlow
- Abstract(参考訳): 知識蒸留(KD)は、大規模言語モデル(LLM)をより小さなものに圧縮するために必要な技術である。
しかしながら、KDにおける学生モデルと教師モデルの明確な役割にもかかわらず、既存のフレームワークの多くは、両方のモデルに均質なトレーニングバックエンド(FSDP、DeepSpeedなど)を使用しており、それによって準最適トレーニング効率が向上している。
本稿では,SGLangを教師推論に用い,疎結合なアーキテクチャを特徴とする LLM 蒸留のための新しいフレームワークである \textbf{KDFlow} を提案する。
FSDP2のトレーニング効率とSGLangの推論効率をブリッジすることにより、KDFlowは統一システムにおいて両方の利点をフル活用する。
さらに,本フレームワークは,異なるプロセス間で全ログを転送する代わりに,ゼロコピーデータ転送を用いて教師の隠れ状態のみを送信し,学生側のログを再計算し,通信コストとKD性能を効果的にバランスさせる。
さらに、我々のフレームワークは、オフ・ポリティクスとオン・ポリティクスの蒸留の両方をサポートし、高度に拡張可能でユーザフレンドリーなAPIを通じて、クロス・トケナイザーKDのためのKDアルゴリズムを組み込んでいる。
実験の結果、KDFlowは現在のKDフレームワークと比較して、XMLbf{1.44$\times$から6.36$\times$}のスピードアップを達成できることがわかった。
コードは、https://github.com/songmzhang/KDFlowで入手できる。
関連論文リスト
- An Empirical Study of Knowledge Distillation for Code Understanding Tasks [19.64130505527951]
知識蒸留(KD)は、大きな教師モデルからコンパクトな学生モデルに知識を移すことによって制限に対処する。
本稿では,コード理解タスクにおけるKDの有効性と使用法を体系的に検討する。
論文 参考訳(メタデータ) (2025-08-21T10:24:48Z) - A Dual-Space Framework for General Knowledge Distillation of Large Language Models [98.73585104789217]
知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。
現在のWhite-box KDフレームワークには2つの制限がある。
我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T17:38:47Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Dual-Space Knowledge Distillation for Large Language Models [39.798007795604676]
KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
論文 参考訳(メタデータ) (2024-06-25T07:25:15Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Neural Architecture Search for Effective Teacher-Student Knowledge
Transfer in Language Models [21.177293243968744]
知識蒸留(KD)を小さな学生モデルに組み込むと、その非効率性に対処し、リソースに制約のある環境への展開を可能にする。
我々は,KDが指導する多言語KD-NAS(Neural Architecture Search, ニューラルアーキテクチャサーチ)を開発し,多言語教師のタスク蒸留に最適な学生アーキテクチャを求める。
我々のKD-NAS学生モデルは,多層型隠れ状態蒸留法を用いて,XLM-Roberta ベース教師と比較して,CPU推論の7倍の高速化を実現し,90%の性能を維持した。
論文 参考訳(メタデータ) (2023-03-16T20:39:44Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。