Fugu-MT 論文翻訳(概要): LogitSpec: Accelerating Retrieval-based Speculative Decoding via Next Next Token Speculation

論文の概要: LogitSpec: Accelerating Retrieval-based Speculative Decoding via Next Next Token Speculation

arxiv url: http://arxiv.org/abs/2507.01449v1
Date: Wed, 02 Jul 2025 08:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:23:00.091919
Title: LogitSpec: Accelerating Retrieval-based Speculative Decoding via Next Next Token Speculation
Title（参考訳）: LogitSpec: Next Next Token Speculationによる検索ベースの投機的デコーディングの高速化
Authors: Tianyu Liu, Qitan Lv, Hao Li, Xing Gao, Xiao Sun,
Abstract要約: 投機的復号法(SD)はLLM推論加速のための有望な手法である。 LogitSpecは、最後のトークンのロジットが次のトークンを予測できるだけでなく、次のトークンを推測できるという観察によって動機付けられている。 LogitSpecは最大2.61$times$ Speedupと3.28のデコードステップで受け入れられたトークンを達成できる。
参考スコア（独自算出の注目度）: 15.04977852652768
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding (SD), where a small draft model is employed to propose draft tokens in advance and then the target model validates them in parallel, has emerged as a promising technique for LLM inference acceleration. Many endeavors to improve SD are to eliminate the need for a draft model and generate draft tokens in a retrieval-based manner in order to further alleviate the drafting overhead and significantly reduce the difficulty in deployment and applications. However, retrieval-based SD relies on a matching paradigm to retrieval the most relevant reference as the draft tokens, where these methods often fail to find matched and accurate draft tokens. To address this challenge, we propose LogitSpec to effectively expand the retrieval range and find the most relevant reference as drafts. Our LogitSpec is motivated by the observation that the logit of the last token can not only predict the next token, but also speculate the next next token. Specifically, LogitSpec generates draft tokens in two steps: (1) utilizing the last logit to speculate the next next token; (2) retrieving relevant reference for both the next token and the next next token. LogitSpec is training-free and plug-and-play, which can be easily integrated into existing LLM inference frameworks. Extensive experiments on a wide range of text generation benchmarks demonstrate that LogitSpec can achieve up to 2.61 $\times$ speedup and 3.28 mean accepted tokens per decoding step. Our code is available at https://github.com/smart-lty/LogitSpec.
Abstract（参考訳）: 投機的復号法 (SD) では, 投機的復号法を用いて事前に投機的トークンの提案を行い, 目標モデルを並列に検証し, LLM推論高速化のための有望な手法として登場している。 SDを改善するための多くの取り組みは、ドラフトモデルの必要性を排除し、検索ベースの方法でドラフトトークンを生成することである。しかし、検索ベースのSDは、最も関連性の高い参照をドラフトトークンとして検索するのと一致するパラダイムに依存しており、これらのメソッドはマッチし正確なドラフトトークンを見つけるのに失敗することが多い。この課題に対処するために,検索範囲を効果的に拡張し,最も関連性の高い参照をドラフトとして検索するLogitSpecを提案する。私たちのLogitSpecは、最後のトークンのロジットが次のトークンを予測できるだけでなく、次のトークンを推測できるという観察によって動機付けられています。具体的には、LogitSpecはドラフトトークンを2つのステップで生成する。 1) 最後のロジットを使用して次の次のトークンを推測する。 LogitSpecはトレーニングフリーでプラグイン・アンド・プレイで、既存のLLM推論フレームワークに簡単に統合できる。幅広いテキスト生成ベンチマークに関する大規模な実験は、LogitSpecが最大2.61$\times$ Speedupと3.28のデコードステップで受け入れられたトークンを達成できることを示した。私たちのコードはhttps://github.com/smart-lty/LogitSpecで利用可能です。

関連論文リスト

CARD: Cache-Assisted Parallel Speculative Decoding for Efficient Large Language Model Inference [19.14564724894706]
本稿では,'query-and-correct'パラダイムを用いた投機的復号化フレームワークを提案する。 CARDは、ドラフトと検証を分離する: ドラフトモデルは、共有キャッシュをポップアップさせる候補トークンを生成し、ターゲットモデルは、ドラフトモデルの生成方向を同時に修正する。提案手法では,バニラ復号法よりも最大4.83高速化が可能であり,ドラフトモデルやターゲットモデルの微調整は不要である。
論文参考訳（メタデータ） (2025-08-06T14:02:10Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文参考訳（メタデータ） (2025-02-15T15:25:38Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [24.04649159686283]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車なしの手法を30%上回り、広く認められた訓練方法さえも25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens [4.5888031410244885]
意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。 CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
論文参考訳（メタデータ） (2024-03-27T14:54:27Z)
REST: Retrieval-Based Speculative Decoding [69.06115086237207]
本稿では,言語モデル生成の高速化を目的とした新しいアルゴリズムであるRetrieval-Based Speculative Decoding(REST)を紹介する。投機的復号化のためのドラフト言語モデルに依存する従来の方法とは異なり、RESTは検索の力を利用してドラフトトークンを生成する。単一バッチ環境で7Bと13Bの言語モデルでベンチマークすると、RESTはコードやテキスト生成において1.62Xから2.36Xの大幅なスピードアップを達成する。
論文参考訳（メタデータ） (2023-11-14T15:43:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。