論文の概要: Training Domain Draft Models for Speculative Decoding: Best Practices and Insights
- arxiv url: http://arxiv.org/abs/2503.07807v2
- Date: Tue, 25 Mar 2025 22:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:14.419249
- Title: Training Domain Draft Models for Speculative Decoding: Best Practices and Insights
- Title(参考訳): 投機的デコーディングのためのドメインドラフトモデルをトレーニングする - ベストプラクティスと洞察
- Authors: Fenglu Hong, Ravi Raju, Jonathan Lingjie Li, Bo Li, Urmish Thakker, Avinash Ravichandran, Swayambhoo Jain, Changran Hu,
- Abstract要約: ドメイン固有のターゲットモデルに投機的復号化を適用すると、ドメインシフトによってジェネリックドラフトモデルの受理率が大幅に低下する。
白箱蒸留法と黒箱蒸留法を比較し,各種データアクセシビリティーシナリオにおける有効性を検討した。
合成データによって、ドラフトモデルを効果的に整合させ、過去のユーザクエリのトレーニング性能の80%から93%を達成できることがわかった。
- 参考スコア(独自算出の注目度): 16.68232264939302
- License:
- Abstract: Speculative decoding is an effective method for accelerating inference of large language models (LLMs) by employing a small draft model to predict the output of a target model. However, when adapting speculative decoding to domain-specific target models, the acceptance rate of the generic draft model drops significantly due to domain shift. In this work, we systematically investigate knowledge distillation techniques for training domain draft models to improve their speculation accuracy. We compare white-box and black-box distillation approaches and explore their effectiveness in various data accessibility scenarios, including historical user queries, curated domain data, and synthetically generated alignment data. Our experiments across Function Calling, Biology, and Chinese domains show that offline distillation consistently outperforms online distillation by 11% to 25%, white-box distillation surpasses black-box distillation by 2% to 10%, and data scaling trends hold across domains. Additionally, we find that synthetic data can effectively align draft models and achieve 80% to 93% of the performance of training on historical user queries. These findings provide practical guidelines for training domain-specific draft models to improve speculative decoding efficiency.
- Abstract(参考訳): 投機的復号化は,ターゲットモデルの出力を予測するために,小さなドラフトモデルを用いて,大規模言語モデル(LLM)の推論を高速化する有効な手法である。
しかし、ドメイン固有のターゲットモデルに投機的復号化を適用すると、ドメインシフトによってジェネリックドラフトモデルの受理率が大幅に低下する。
本研究では,ドメインドラフトモデルを訓練するための知識蒸留手法を体系的に検討し,その推測精度を向上する。
我々は,白箱蒸留法と黒箱蒸留法を比較し,過去のユーザクエリ,キュレートされたドメインデータ,合成生成されたアライメントデータなど,さまざまなデータアクセシビリティシナリオにおける有効性を検討した。
機能呼出,生物学,中国ドメインを対象とした実験の結果,オフライン蒸留はオンライン蒸留の11%から25%を一貫して上回り,ホワイトボックス蒸留はブラックボックス蒸留の2%から10%を超え,データスケーリングの傾向はドメイン間で持続していることがわかった。
さらに、合成データにより、ドラフトモデルを効果的に整合させ、過去のユーザクエリのトレーニング性能の80%から93%を達成できることがわかった。
これらの知見は、投機的復号効率を向上させるために、ドメイン固有のドラフトモデルを訓練するための実践的ガイドラインを提供する。
関連論文リスト
- Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales [10.397502254316645]
二重補正予測のための二相予測手法を提案する。
まず、視覚認識タスクに対して構造化された合理性を提供する新しいデータセットをキュレートする。
第二に,視覚的エビデンスを解消し,局所化する際のモデル案内のための有理形最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:33:39Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Towards Adversarially Robust Dataset Distillation by Curvature Regularization [11.02948004359488]
蒸留したデータセットに対向ロバスト性を組み込むことで、これらのデータセットでトレーニングされたモデルが高い精度を維持し、より良い対向ロバスト性を得る。
そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T06:31:03Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。