Fugu-MT 論文翻訳(概要): AdaPLD: Adaptive Retrieval and Reuse for Efficient Model-Free Speculative Decoding

論文の概要: AdaPLD: Adaptive Retrieval and Reuse for Efficient Model-Free Speculative Decoding

arxiv url: http://arxiv.org/abs/2606.05742v1
Date: Thu, 04 Jun 2026 06:09:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.586583
Title: AdaPLD: Adaptive Retrieval and Reuse for Efficient Model-Free Speculative Decoding
Title（参考訳）: AdaPLD: 効率的なモデルフリー投機的デコードのための適応的検索と再利用
Authors: Runheng Liu, Jincheng Xie, Wen Hu, Xingchen Xiao, Heyan Huang,
Abstract要約: 本稿では,検索とドラフト構築の両方を適応的に改善するトレーニングフリーな手法であるemphAdaPLDを提案する。様々なベンチマークで、AdaPLDは目標モデルのフォワードパスを減らし、最大3.10タイムのデコードスピードアップを実現している。
参考スコア（独自算出の注目度）: 35.23072855575658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding accelerates generation by verifying multiple drafted tokens in a single target-model forward pass, reducing sequential decoding iterations. Model-free variants avoid auxiliary draft models by reusing text and model states already available during generation, but their speedup depends on the reliability of the constructed drafts. We identify two limitations of existing reuse-based methods: lexically anchored retrieval has limited recall under surface-form variation, and deterministic span copying can be brittle when the retrieved context does not uniquely determine the continuation. We propose \emph{AdaPLD}, a training-free method that adaptively improves both retrieval and draft construction. AdaPLD preserves high-precision lexical reuse while using semantic similarity to recover additional reuse opportunities when lexical matching fails. It further constructs branched reuse hypotheses to account for continuation uncertainty, rather than relying on a single copied span. Across diverse benchmarks, AdaPLD reduces target-model forward passes and achieves up to $3.10\times$ decoding speedup.
Abstract（参考訳）: 投機的復号化は、1つのターゲットモデルフォワードパスで複数の起草されたトークンを検証することで生成を加速し、シーケンシャルな復号化の繰り返しを減少させる。モデルフリーの派生型は、生成時に既に利用可能なテキストとモデルステートを再利用することで補助的なドラフトモデルを避けるが、そのスピードアップは構築されたドラフトの信頼性に依存する。従来の再利用可能な手法には2つの制限がある: 語彙的に固定された検索は、表面形状の変化の下でリコールを限定しており、検索されたコンテキストが継続を一意に決定しない場合、決定論的スパンコピーは不安定である。本稿では,検索とドラフト構築の両方を適応的に改善するトレーニングフリーな手法である \emph{AdaPLD} を提案する。 AdaPLDは、語彙マッチングが失敗した場合に、セマンティックな類似性を利用してさらなる再利用機会を回復しながら、高精度な語彙再利用を保っている。さらに、単一のコピースパンに頼るのではなく、継続の不確実性を考慮するために、分岐した再利用仮説を構築している。様々なベンチマークにおいて、AdaPLDは目標モデルのフォワードパスを減らし、最大3.10\times$デコードスピードアップを達成する。

関連論文リスト

Efficient Test-Time Inference via Deterministic Exploration of Truncated Decoding Trees [68.04613115686509]
自己整合性は、複数の推論トレースを並列にサンプリングし、投票することで、推論時間のパフォーマンスを向上させる。そこで本研究では,切り落された標本を伐採木として扱う決定論的復号法であるDLE(Distinct Leafion)を提案する。 DLEは高品質な推論トレースを調査し、数学、コーディング、一般的な推論タスクのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2026-04-22T12:42:03Z)
Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。 FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文参考訳（メタデータ） (2025-11-28T08:23:30Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文参考訳（メタデータ） (2025-09-28T07:00:15Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Mitigating the Learning Bias towards Repetition by Self-Contrastive Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。トークンレベルの反復確率の過大評価は学習バイアスに起因している。 LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文参考訳（メタデータ） (2023-07-04T07:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。