論文の概要: Direct Alignment of Draft Model for Speculative Decoding with
Chat-Fine-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2403.00858v3
- Date: Fri, 8 Mar 2024 23:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:19:46.988889
- Title: Direct Alignment of Draft Model for Speculative Decoding with
Chat-Fine-Tuned LLMs
- Title(参考訳): Chat-Fine-Tuned LLMを用いた投機復号のためのドラフトモデルの直接アライメント
- Authors: Raghavv Goel, Mukul Gagrani, Wonseok Jeon, Junyoung Park, Mingu Lee,
Christopher Lott
- Abstract要約: 投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
- 参考スコア(独自算出の注目度): 11.91629418177851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text generation with Large Language Models (LLMs) is known to be memory bound
due to the combination of their auto-regressive nature, huge parameter counts,
and limited memory bandwidths, often resulting in low token rates. Speculative
decoding has been proposed as a solution for LLM inference acceleration.
However, since draft models are often unavailable in the modern open-source LLM
families, e.g., for Llama 2 7B, training a high-quality draft model is required
to enable inference acceleration via speculative decoding. In this paper, we
propose a simple draft model training framework for direct alignment to
chat-capable target models. With the proposed framework, we train Llama 2 Chat
Drafter 115M, a draft model for Llama 2 Chat 7B or larger, with only 1.64\% of
the original size. Our training framework only consists of pretraining,
distillation dataset generation, and finetuning with knowledge distillation,
with no additional alignment procedure. For the finetuning step, we use
instruction-response pairs generated by target model for distillation in
plausible data distribution, and propose a new Total Variation Distance++
(TVD++) loss that incorporates variance reduction techniques inspired from the
policy gradient method in reinforcement learning. Our empirical results show
that Llama 2 Chat Drafter 115M with speculative decoding achieves up to 2.3
block efficiency and 2.4$\times$ speed-up relative to autoregressive decoding
on various tasks with no further task-specific fine-tuning.
- Abstract(参考訳): 大規模言語モデル(llms)を用いたテキスト生成は、その自己回帰性、巨大なパラメータ数、メモリ帯域幅の制限の組み合わせによってメモリバインドであることが知られており、トークンレートが低くなることが多い。
LLM推論加速の解法として投機的復号法が提案されている。
しかし、Llama 2 7Bのような現代のオープンソースのLLMファミリでは、ドラフトモデルは利用できないことが多いため、投機的復号化による推論アクセラレーションを可能にするために、高品質のドラフトモデルを訓練する必要がある。
本稿では,チャット可能なターゲットモデルに直接アライメントするための簡易なモデルトレーニングフレームワークを提案する。
提案したフレームワークでは、Llama 2 Chat 7B以上のドラフトモデルであるLlama 2 Chat Drafter 115Mを、オリジナルサイズのわずか1.64\%でトレーニングする。
トレーニングフレームワークは,事前学習,蒸留データセット生成,知識蒸留による微調整のみで,追加のアライメント処理は行わない。
微調整のステップでは,ターゲットモデルが生成した命令応答対を用いて可算データ分布の蒸留を行い,強化学習におけるポリシー勾配法に触発された分散低減手法を組み込んだ新しい全変動距離++(tvd++)損失を提案する。
実験結果から,llama 2 chat drafter 115mの投機的復号化は,最大2.3ブロック効率と2.4$\times$の高速化を実現する。
関連論文リスト
- GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Online Speculative Decoding [36.742315439450984]
我々は,オンライン知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
その結果、トークンの受け入れ率は0.1から0.65に大幅に増加し、レイテンシが1.22倍から3.06倍に削減された。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - Draft & Verify: Lossless Large Language Model Acceleration via
Self-Speculative Decoding [26.286435804599524]
本稿では,Large Language Models (LLMs) の高速化を目的とした新しい推論手法,自己投機的デコーディングを提案する。
提案手法では、追加のニューラルネットワークトレーニングを必要とせず、メモリフットプリントを必要とせず、推論アクセラレーションのためのプラグアンドプレイソリューションとなる。
LLaMA-2とその微調整されたモデルによるベンチマークでは、最大1.73$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。