論文の概要: Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability
- arxiv url: http://arxiv.org/abs/2603.12038v1
- Date: Thu, 12 Mar 2026 15:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.172911
- Title: Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability
- Title(参考訳): Slow-Fast推論: 文内サポート安定性による学習自由推論高速化
- Authors: Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan,
- Abstract要約: 本稿では,生成を低コストの高速ステップと時折高密度の低速ステップに分解する,学習不要な復号化フレームワークを提案する。
評価されたコンテキスト長全体にわたって、SFIは約1.6times$--14.4times$高い復号スループットを提供する。
- 参考スコア(独自算出の注目度): 61.28049899686214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context autoregressive decoding remains expensive because each decoding step must repeatedly process a growing history. We observe a consistent pattern during decoding: within a sentence, and more generally within a short semantically coherent span, the dominant attention support often remains largely stable. Motivated by this observation, we propose Slow-Fast Inference (SFI), a training-free decoding framework that decouples generation into frequent low-cost fast steps and occasional dense-attention slow steps. Fast steps reuse a compact sparse memory for efficient decoding. Slow steps are triggered near semantic boundaries. At slow steps, the model revisits the broader context and uses the Selector to refresh the selected memory for subsequent fast steps. Across the evaluated context lengths, SFI delivers approximately $1.6\times$--$14.4\times$ higher decoding throughput while generally maintaining quality on par with the full-KV baseline across long-context and long-CoT settings. Because SFI is training-free and applies directly to existing checkpoints, it offers a practical path to reducing inference cost for contemporary autoregressive reasoning models in long-context, long-horizon, and agentic workloads.
- Abstract(参考訳): 長文の自動回帰復号法は、各復号法は、成長する歴史を繰り返す必要があるため、依然として高価である。
文中に一貫したパターンを観察し、より一般的には短い意味論的に一貫性のあるスパン内では、主観的サポートは概ね安定している。
そこで本研究では,Slow-Fast Inference (SFI)を提案する。
高速ステップは、効率的な復号化のためにコンパクトスパースメモリを再利用する。
スローステップはセマンティック境界付近でトリガーされる。
遅いステップでは、モデルはより広いコンテキストを再定義し、選択したメモリを更新するためにセレクタを使用する。
評価されたコンテキスト長全体にわたって、SFIは、約1.6\times$--14.4\times$高デコードスループットを提供するが、一般的には、長いコンテキストと長いCoT設定にまたがるフルKVベースラインと同等の品質を維持する。
SFIはトレーニングフリーであり、既存のチェックポイントに直接適用されるため、ロングコンテキスト、ロングホライゾン、エージェントワークロードにおける現代の自己回帰推論モデルの推論コストを低減するための実践的なパスを提供する。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Retrospective Sparse Attention for Efficient Long-Context Generation [5.562294018150909]
RetroAttentionは、後続の復号ステップから新たに到着したKVエントリを使用して、過去の注意出力を遡及的に更新する。
これは固定アテンション・アウトプットのパラダイムを破り、事前近似の継続的な修正を可能にする。
実験により、RetroAttention は最先端(SOTA) KV 圧縮法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-08-12T15:11:47Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [11.225649178057695]
SpecExtendは、追加のトレーニングなしで長いシーケンスでの投機的復号化を改善する。
長い入力のドラフト精度と速度をトレーニングせずに向上させるため,クロスモデル検索を提案する。
SpecExtendは16K-tokenの長い要約で最大2.84倍、長い推論で最大3.86倍の投機的復号化を加速する。
論文 参考訳(メタデータ) (2025-05-27T06:30:00Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。