論文の概要: OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
- arxiv url: http://arxiv.org/abs/2507.02659v1
- Date: Thu, 03 Jul 2025 14:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.388787
- Title: OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding
- Title(参考訳): OmniDraft: デバイス上での投機的デコードのためのクロスボキャブラリとオンライン適応推論
- Authors: Ramchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Shaojie Zhuo, Chen Feng, Yicheng Lin, Chenzheng Su, Xiaopeng Zhang,
- Abstract要約: OmniDraftは、単一のドラフトモデルを任意のターゲットモデルで操作可能な統合フレームワークである。
本研究では, 混合蒸留微調整によるオンラインn-gramキャッシュを導入し, ドラフトモデルとターゲットモデル間の語彙間ミスマッチに対処する。
本稿では,算数推論,コーディング,テキスト生成タスクにおいて,オンライン学習を行うことで,フレームワークの習熟度を示す。
- 参考スコア(独自算出の注目度): 8.589209709453026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding generally dictates having a small, efficient draft model that is either pretrained or distilled offline to a particular target model series, for instance, Llama or Qwen models. However, within online deployment settings, there are two major challenges: 1) usage of a target model that is incompatible with the draft model; 2) expectation of latency improvements over usage and time. In this work, we propose OmniDraft, a unified framework that enables a single draft model to operate with any target model and adapt dynamically to user data. We introduce an online n-gram cache with hybrid distillation fine-tuning to address the cross-vocabulary mismatch across draft and target models; and further improve decoding speed by leveraging adaptive drafting techniques. OmniDraft is particularly suitable for on-device LLM applications where model cost, efficiency and user customization are the major points of contention. This further highlights the need to tackle the above challenges and motivates the \textit{``one drafter for all''} paradigm. We showcase the proficiency of the OmniDraft framework by performing online learning on math reasoning, coding and text generation tasks. Notably, OmniDraft enables a single Llama-68M model to pair with various target models including Vicuna-7B, Qwen2-7B and Llama3-8B models for speculative decoding; and additionally provides up to 1.5-2x speedup.
- Abstract(参考訳): 投機的復号法は一般に、Llama や Qwen のような特定のターゲットモデル系列に事前訓練されたり、蒸留されたりした、小型で効率的なドラフトモデルを持つことを規定する。
しかしながら、オンラインデプロイメント設定には2つの大きな課題があります。
1) 原案と相容れない対象モデルの使用
2) 使用時間や時間よりもレイテンシの改善が期待できる。
本研究では,OmniDraftを提案する。OmniDraftは,単一のドラフトモデルを任意のターゲットモデルで動作させ,ユーザデータへの動的適応を可能にする統一フレームワークである。
本研究では, 混合蒸留微調整によるオンラインn-gramキャッシュを導入し, ドラフトモデルとターゲットモデル間の語彙間ミスマッチに対処し, 適応的ドラフト技術を活用することによりデコード速度の向上を図る。
OmniDraftは特に、モデルコスト、効率、ユーザカスタマイズが競合する主要なポイントであるオンデバイスLLMアプリケーションに適している。
このことは、上記の課題に取り組む必要性をさらに強調し、すべての'} パラダイムに対する \textit{``one drafter を動機付けます。
我々は,OmniDraftフレームワークが数学推論,コーディング,テキスト生成タスクにおいてオンライン学習を行うことで,その習熟度を示す。
特に、OmniDraftは単一のLlama-68Mモデルで、投機復号のためにVicuna-7B、Qwen2-7B、Llama3-8Bモデルなどの様々なターゲットモデルと組み合わせることができる。
関連論文リスト
- DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。