論文の概要: Attention Drift: What Autoregressive Speculative Decoding Models Learn
- arxiv url: http://arxiv.org/abs/2605.09992v1
- Date: Mon, 11 May 2026 05:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.535484
- Title: Attention Drift: What Autoregressive Speculative Decoding Models Learn
- Title(参考訳): Attention Drift: 自己回帰的投機的デコーディングモデルが学んだこと
- Authors: Doğaç Eldenk, Payal Mohapatra, Yigitcan Comlek, Kaan Oktay, Hongyang Zhang, Stephen Xia,
- Abstract要約: 投機的復号化は、将来のトークンを小さなモデルで起草することで推論を加速させるが、テンプレートの摂動と長文入力の下では、ドラフトアモデルが急激に劣化する。
我々は、以前に報告されていない現象をtextbfattention drift と呼び、投機チェーン内で連続したトークンを生成すると、注意がプロンプトから最近生成されたトークンへと徐々に移動していく。
提案するアーキテクチャ上の変更点として, 隠れ状態に対するノームと, 隠蔽状態の捕捉後の隠れ状態当たりのRMSNormの2つを挙げる。
- 参考スコア(独自算出の注目度): 8.218844611545775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference by drafting future tokens with a small model, but drafter models degrade sharply under template perturbation and long-context inputs. We identify a previously-unreported phenomenon we call \textbf{attention drift}: as the drafter generates successive tokens within a speculation chain, attention progressively moves from the prompt onto its own recently-generated tokens. We observe this across both \emph{EAGLE3} drafters and \emph{MTP heads}, suggesting drift is a property of drafter designs. We trace this to the un-normalized residual path between chain steps: the drafter's hidden state magnitude grows monotonically with chain depth, which exhibits dynamics consistent with additional pre-norm transformer layers stacked on the target rather than as a standalone autoregressive predictor. In order to limit the growth, we propose two architectural changes: Post-norm on the drafter hidden states and per-hidden-state RMSNorm after capturing target hidden states. Our interventions improve acceptance length over the current leading model, pre-norm EAGLE3, by up to $2\times$ under template perturbation, $1.18\times$ on long-context tasks, and $1.10\times$ on seven standard benchmarks spanning multi-turn chat, math, and coding. Our changes also allow shorter train-time-test depths to generalize over longer drafting sequences.
- Abstract(参考訳): 投機的復号化は、将来のトークンを小さなモデルで起草することでLCM推論を加速させるが、テンプレートの摂動と長文入力の下では、ドラフトアモデルが急激に劣化する。
我々は、未報告の現象である「textbf{attention drift}」を特定し、投機者が投機連鎖内で連続するトークンを生成すると、注意がプロンプトから最近生成されたトークンへと徐々に移動していく。
ここでは, ドリフトがドラフト設計の特性であることを示唆し, ドリフトがドラフト設計の特性であることを示唆する。
起草者の隠れ状態の大きさはチェーン深さと単調に成長し、独立自己回帰予測器ではなく、標的に積み重ねられた追加のプレノーム変圧器層と一致するダイナミクスを示す。
成長を抑えるため,提案手法では,隠れ状態に対するノームと隠れ状態当たりのRMSNormの2つのアーキテクチャ変更を提案する。
我々の介入は、現在のリードモデルであるpre-norm EAGLE3よりも、テンプレートの摂動の下で最大2ドル、長いコンテキストタスクで1.18ドル、マルチターンチャット、数学、コーディングにまたがる7つの標準ベンチマークで1.10ドルまで、受け入れ期間を改善する。
私たちの変更は、より長いドラフトシーケンスよりも短い列車時間テストの深さを一般化することを可能にする。
関連論文リスト
- CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。