論文の概要: Distillation of Large Language Models via Concrete Score Matching
- arxiv url: http://arxiv.org/abs/2509.25837v1
- Date: Tue, 30 Sep 2025 06:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.450955
- Title: Distillation of Large Language Models via Concrete Score Matching
- Title(参考訳): コンクリートスコアマッチングによる大規模言語モデルの蒸留
- Authors: Yeongmin Kim, Donghyeok Shin, Mina Kang, Byeonghu Na, Il-Chul Moon,
- Abstract要約: 大規模言語モデル (LLM) は優れた性能を提供するが、効率的な推論のための知識蒸留 (KD) の展開に費用がかかる。
本稿では,ソフトマックスによる平滑化と最適解集合の制約を克服する離散的なスコアマッチング手法を提案する。
実験により、CSDは最近のKD目標を一貫して上回り、良好なフィデリティと多様性のトレードオフを達成し、オン・ポリティの技法と組み合わせることで補完的な利益を得ることが示された。
- 参考スコア(独自算出の注目度): 28.320219993420434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) deliver remarkable performance but are costly to deploy, motivating knowledge distillation (KD) for efficient inference. Existing KD objectives typically match student and teacher probabilities via softmax, which blurs valuable logit information. While direct logit distillation (DLD) mitigates softmax smoothing, it fails to account for logit shift invariance, thereby restricting the solution space. We propose Concrete Score Distillation (CSD), a discrete score-matching objective that overcomes both softmax-induced smoothing and restrictions on the optimal solution set. We resolve the training instability and quadratic complexity of discrete score-matching in autoregressive LLMs, and the resulting CSD objective aligns relative logit differences across all vocabulary pairs between student and teacher with flexible weighting. We provide both mode-seeking and mode-covering instances within our framework and evaluate CSD on task-agnostic instruction-following and task-specific distillation using GPT-2-1.5B, OpenLLaMA-7B, and GEMMA-7B-IT. Experiments show that CSD consistently surpasses recent KD objectives, achieves favorable fidelity-diversity trade-offs, and yields complementary gains when combined with on-policy techniques, demonstrating its scalability and effectiveness for LLM distillation.
- Abstract(参考訳): 大規模言語モデル (LLM) は優れた性能を提供するが、効率的な推論のための知識蒸留 (KD) の展開に費用がかかる。
既存のKD目標は通常、学生と教師の確率をソフトマックスで一致させるが、これは貴重なロジット情報を曖昧にする。
直接ロジット蒸留(DLD)はソフトマックスの平滑化を緩和するが、ロジットシフトの不変性を考慮せず、溶液空間を制限しない。
本稿では,ソフトマックスによる平滑化と最適解集合の制限を克服する離散的なスコアマッチング目的であるコンクリートスコア蒸留法を提案する。
自己回帰型LDMにおける離散的なスコアマッチングのトレーニング不安定性と2次複雑さを解消し、結果として得られたCSDは、柔軟性のある重み付けを持つ学生と教師の全ての語彙対間で相対ロジット差を整合させる。
GPT-2-1.5B, OpenLLaMA-7B, GEMMA-7B-IT を用いて,本フレームワーク内でのモード探索とモード探索の両方のインスタンスを提供し,タスクに依存しない命令追従およびタスク固有蒸留における CSD の評価を行った。
実験の結果、CSDは最近のKD目標を一貫して上回り、良好なフィデリティと多様性のトレードオフを達成し、オンライン技術と組み合わせることで相補的な利益をもたらし、LLM蒸留のスケーラビリティと有効性を示した。
関連論文リスト
- Less is More: Selective Reflection for Compatible and Efficient Knowledge Distillation in Large Language Models [0.0]
知識蒸留(KD)は、大規模言語モデル(LLM)をコンパクトで効率的な学生モデルに圧縮する技術である。
本稿では,新しいデータキュレーションフレームワークである選択反射蒸留(SRD)を提案する。
プラグ・アンド・プレイの強化として、SRDは様々なホワイトボックスKDアプローチで蒸留結果を改善する。
論文 参考訳(メタデータ) (2025-08-08T08:55:53Z) - Being Strong Progressively! Enhancing Knowledge Distillation of Large Language Models through a Curriculum Learning Framework [0.0]
知識蒸留(KD)は、教師モデルの能力をより小さな学生モデルに転送することで、大きな言語モデル(LLM)を圧縮する。
LLMの既存のKD法は、訓練中に学生モデルの分布が大きく変化することを防ぐのに失敗することが多い。
我々は,「プログレッシブ・オーバーロード」の強度トレーニング原理に着想を得た,新しいプラグインカリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T02:48:38Z) - ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via $α$-$β$-Divergence [89.630486749083]
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する。
KDの中核的な課題は、2つのモード集中効果のバランスにある。
我々は$alpha$$beta$-divergenceを持つ汎用フレームワークであるABKDを提案する。
論文 参考訳(メタデータ) (2025-05-07T16:48:49Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Self-Distillation from the Last Mini-Batch for Consistency
Regularization [14.388479145440636]
我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-30T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。