論文の概要: TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs
- arxiv url: http://arxiv.org/abs/2510.15545v2
- Date: Tue, 28 Oct 2025 15:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.212498
- Title: TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs
- Title(参考訳): TokenTiming:Universal Speculative Decoding Model Pairsのための動的アライメント手法
- Authors: Sibo Xiao, Jinyuan Fu, Zhongle Xie, Lidan Shou,
- Abstract要約: 投機的復号化は推論効率を大幅に向上させる。
ドラフトとターゲットモデルは、同じ語彙を共有しなければならない。
普遍的な投機的復号化のためのアルゴリズムTokenTimingを提案する。
- 参考スコア(独自算出の注目度): 12.056664630923896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accelerating the inference of large language models (LLMs) has been a critical challenge in generative AI. Speculative decoding (SD) substantially improves LLM inference efficiency. However, its utility is limited by a fundamental constraint: the draft and target models must share the same vocabulary, thus limiting the herd of available draft models and often necessitating the training of a new model from scratch. Inspired by Dynamic Time Warping (DTW), a classic algorithm for aligning time series, we propose the algorithm TokenTiming for universal speculative decoding. It operates by re-encoding the draft token sequence to get a new target token sequence, and then uses DTW to build a mapping to transfer the probability distributions for speculative sampling. Benefiting from this, our method accommodates mismatched vocabularies and works with any off-the-shelf models without retraining and modification. We conduct comprehensive experiments on various tasks, demonstrating 1.57x speedup. This work enables a universal approach for draft model selection, making SD a more versatile and practical tool for LLM acceleration.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論を加速することは、生成AIにおいて重要な課題である。
投機的復号法(SD)はLLM推論効率を大幅に向上させる。
しかし、その実用性は基本的な制約によって制限されている: ドラフトモデルとターゲットモデルは同じ語彙を共有しなければならないため、利用可能なドラフトモデルの群れを制限し、しばしば新しいモデルの訓練をスクラッチから行う必要がある。
時系列を整列する古典的アルゴリズムであるDynamic Time Warping (DTW) に着想を得て, 普遍的投機的復号化のためのTokenTimingアルゴリズムを提案する。
ドラフトトークンシーケンスを再エンコードして、新たなターゲットトークンシーケンスを取得し、DTWを使用して、投機的なサンプリングのために確率分布を転送するマッピングを構築する。
提案手法は,不整合語彙に適合し,再学習や修正を伴わずに市販のモデルで機能する。
我々は様々なタスクについて総合的な実験を行い、1.57倍のスピードアップを示す。
この作業により、ドラフトモデル選択のための普遍的なアプローチが可能となり、SDはより汎用的で実用的なLCM加速ツールとなる。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [7.14946066475415]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。
既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。
この共有語彙制約を除去する3つの新しいSD手法を提案する。
我々のアルゴリズムは、標準の自己回帰復号よりも最大2.8倍の高速化を示す。
論文 参考訳(メタデータ) (2025-01-31T19:13:58Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。