論文の概要: Less is More: Selective Reflection for Compatible and Efficient Knowledge Distillation in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.06135v1
- Date: Fri, 08 Aug 2025 08:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.15645
- Title: Less is More: Selective Reflection for Compatible and Efficient Knowledge Distillation in Large Language Models
- Title(参考訳): より少ないもの:大規模言語モデルにおける互換性と効率的な知識蒸留のための選択的反射
- Authors: Lingyuan Liu, Mengxiang Zhang,
- Abstract要約: 知識蒸留(KD)は、大規模言語モデル(LLM)をコンパクトで効率的な学生モデルに圧縮する技術である。
本稿では,新しいデータキュレーションフレームワークである選択反射蒸留(SRD)を提案する。
プラグ・アンド・プレイの強化として、SRDは様々なホワイトボックスKDアプローチで蒸留結果を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) is a fundamental technique for compressing large language models (LLMs) into compact, efficient student models. However, existing white-box KD methods mainly focus on balancing ground truth and student-generated responses while overlooking two critical factors: training data quality and student-model compatibility. To address these limitations, we propose Selective Reflection Distillation (SRD), a novel data curation framework that leverages reflections from student models to systematically refine training data. SRD dynamically evaluates and selects prompt-response pairs by comparing ground truth data with student model outputs, selectively curating high-quality, student-compatible training instances through automated ranking based on difficulty. Furthermore, after selecting the training data, a curriculum scheduling strategy is employed to incrementally introduce these curated subsets into the distillation process at fixed intervals. As a plug-and-play enhancement, SRD consistently improves distillation outcomes across diverse white-box KD approaches and model architectures, as well as decreases computational cost significantly during KD training. Experiments on a range of language model benchmarks demonstrate SRD's consistent improvements in distilled model performance, as well as a reduction in training runtime by up to 39%, under diverse KD methods and model families. Notably, SRD operates as a plug-and-play module, enhancing sample efficiency without modifying underlying KD algorithms. Our findings highlight that data quality and compatibility are pivotal to effective and efficient distillation of LLMs, and SRD provides a principled framework to achieve both. This work advances the understanding of data-centric factors in KD and offers practical insights for enhancing the capability and efficiency of compressed LLMs.
- Abstract(参考訳): 知識蒸留(KD)は、大規模言語モデル(LLM)をコンパクトで効率的な学生モデルに圧縮するための基礎技術である。
しかし、既存のホワイトボックスKD法は主に、データ品質のトレーニングと学生モデルとの互換性の2つの重要な要素を見越しながら、真実と学生生成の応答のバランスに重点を置いている。
これらの制約に対処するために,学生モデルからの反射を利用して学習データを体系的に洗練する新しいデータキュレーションフレームワークであるSlective Reflection Distillation (SRD)を提案する。
SRDは、地上の真理データを学生モデル出力と比較し、難易度に基づく自動ランキングにより、高品質で学生互換のトレーニングインスタンスを選択的にキュレートし、プロンプト応答対を動的に評価し、選択する。
さらに、トレーニングデータを選択した後、一定の間隔でこれらのキュレートされたサブセットを蒸留プロセスに漸進的に導入するためのカリキュラムスケジューリング戦略を採用する。
プラグ・アンド・プレイの強化として、SRDは様々なホワイトボックスKDアプローチとモデルアーキテクチャの蒸留結果を改善し、KDトレーニングにおいて計算コストを大幅に削減する。
さまざまな言語モデルベンチマークの実験では、SRDの蒸留モデルのパフォーマンスが一貫した改善と、さまざまなKDメソッドとモデルファミリの下でのトレーニングランタイムの最大39%削減が示されている。
特に、SRDはプラグアンドプレイモジュールとして動作し、基礎となるKDアルゴリズムを変更することなくサンプル効率を向上させる。
以上の結果から, LLMの有効かつ効率的な蒸留にはデータ品質と互換性が重要であり, SRDは両者を実現するための基本的枠組みを提供する。
この研究は、KDにおけるデータ中心因子の理解を深め、圧縮LDMの能力と効率を高めるための実践的な洞察を提供する。
関連論文リスト
- Being Strong Progressively! Enhancing Knowledge Distillation of Large Language Models through a Curriculum Learning Framework [0.0]
知識蒸留(KD)は、教師モデルの能力をより小さな学生モデルに転送することで、大きな言語モデル(LLM)を圧縮する。
LLMの既存のKD法は、訓練中に学生モデルの分布が大きく変化することを防ぐのに失敗することが多い。
我々は,「プログレッシブ・オーバーロード」の強度トレーニング原理に着想を得た,新しいプラグインカリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T02:48:38Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Data Upcycling Knowledge Distillation for Image Super-Resolution [25.753554952896096]
知識蒸留(KD)は、教師モデルから生徒モデルへのタスク関連知識の伝達によって、ディープニューラルネットワークを圧縮する。
本稿では,教師モデルの知識を学習者モデルに伝達するために,学習データから得られたドメイン内データを用いて,データリサイクル知識蒸留(DuKD)を提案する。
論文 参考訳(メタデータ) (2023-09-25T14:13:26Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。