Fugu-MT 論文翻訳(概要): Accelerate Speculative Decoding with Sparse Computation in Verification

論文の概要: Accelerate Speculative Decoding with Sparse Computation in Verification

arxiv url: http://arxiv.org/abs/2512.21911v1
Date: Fri, 26 Dec 2025 07:53:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-29 20:48:42.050263
Title: Accelerate Speculative Decoding with Sparse Computation in Verification
Title（参考訳）: スパース計算による検証における投機的復号化の高速化
Authors: Jikai Wang, Jianchao Tan, Yuxuan Hu, Jiayu Qin, Yerui Sun, Yuchen Xie, Xunliang Cai, Juntao Li, Min Zhang,
Abstract要約: 投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
参考スコア（独自算出の注目度）: 49.74839681322316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding accelerates autoregressive language model inference by verifying multiple draft tokens in parallel. However, the verification stage often becomes the dominant computational bottleneck, especially for long-context inputs and mixture-of-experts (MoE) models. Existing sparsification methods are designed primarily for standard token-by-token autoregressive decoding to remove substantial computational redundancy in LLMs. This work systematically adopts different sparse methods on the verification stage of the speculative decoding and identifies structured redundancy across multiple dimensions. Based on these observations, we propose a sparse verification framework that jointly sparsifies attention, FFN, and MoE components during the verification stage to reduce the dominant computation cost. The framework further incorporates an inter-draft token and inter-layer retrieval reuse strategy to further reduce redundant computation without introducing additional training. Extensive experiments across summarization, question answering, and mathematical reasoning datasets demonstrate that the proposed methods achieve favorable efficiency-accuracy trade-offs, while maintaining stable acceptance length.
Abstract（参考訳）: 投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。しかし、検証段階はしばしば主要な計算ボトルネックとなり、特に長文入力やMixix-of-experts (MoE) モデルでは顕著である。既存のスペーシフィケーション方式は主に標準トークン・バイ・トーケンの自己回帰デコードのために設計されており、LLMの計算冗長性を大幅に除去する。この研究は、投機的復号化の検証段階において異なるスパース法を体系的に採用し、複数の次元にわたる構造的冗長性を同定する。これらの観測結果に基づいて,本研究では,注目度,FFN,MoE成分を連立に分散したスパース検証フレームワークを提案し,計算コストを大幅に削減する。このフレームワークには、追加のトレーニングを導入することなく冗長な計算をさらに削減するために、ドラフト間トークンと層間再利用戦略が組み込まれている。要約,質問応答,数学的推論データセットにまたがる広範囲な実験により,提案手法は安定な受理長を維持しつつ,良好な効率・精度のトレードオフを達成できることを示した。

関連論文リスト

Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文参考訳（メタデータ） (2026-02-20T14:13:22Z)
Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文参考訳（メタデータ） (2025-12-04T17:50:53Z)
Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文参考訳（メタデータ） (2025-09-28T04:19:48Z)
Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling [38.27469349005585]
テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なパラダイムである。テストタイムのスケーリングは、冗長かつ反復的な推論トレースの生成によって本質的に非効率である。テスト時間スケーリングを高速化する投機的復号法を評価するために設計された最初の包括的なベンチマークを紹介する。
論文参考訳（メタデータ） (2025-08-30T01:54:55Z)
Confidence-Modulated Speculative Decoding for Large Language Models [0.0]
本稿では,信頼度変調された起草に基づく投機的復号化のための情報理論フレームワークを提案する。機械翻訳と要約タスクの実験は、標準的な投機的復号化よりも大幅に高速化された。
論文参考訳（メタデータ） (2025-08-21T09:06:31Z)
READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文参考訳（メタデータ） (2025-08-12T16:47:48Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。 CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。