論文の概要: AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding
- arxiv url: http://arxiv.org/abs/2510.07486v1
- Date: Wed, 08 Oct 2025 19:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.694566
- Title: AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding
- Title(参考訳): AsyncSpade: 非同期スパースデコーディングによる効率的なテスト時間スケーリング
- Authors: Shuqing Luo, Yilin Guan, Pingzhi Li, Hanrui Wang, Tianlong Chen,
- Abstract要約: テストタイムスケーリング(TTS)は長いチェーン・オブ・シント(CoT)を介してLCM推論を促進する
KV-cache成長は、LLMデコーディングのメモリバウンドボトルネックを増幅する。
2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
- 参考スコア(独自算出の注目度): 35.10915929939651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS) boosts LLM reasoning via long chain-of-thought (CoT), but the linear KV-cache growth amplifies the memory-bound bottleneck of LLM decoding. Query-aware page-level sparse decoding can achieve state-of-the-art performance under constrained FLOPs budgets, but is limited by both sequential-dependent page filtering and coarse-grained token selection, hampering serving efficiency and model performance on TTS tasks under high concurrency and long CoT scenarios (consuming even higher runtime than the forward pipeline itself). In this paper, we first find that the current-step query state can be accurately approximated in a unified manner from a short window of recent queries, enabling training-free query-aware sparsity without waiting in the decoding loop. We propose AsyncSpade, an asynchronous framework for efficient TTS built on two core components: (1) a novel light-weight temporal-regressive module that predicts the next-token query state; (2) an asynchronous and disaggregated framework that decouples the KV cache filtering from the auto-regressive decoding loop, overlapping the token-level KV selection with the forward inference computation through asynchronism. To our knowledge, AsyncSpade is the first to eliminate the sequential dependence without sacrificing model performance. We validate the effectiveness of AsyncSpade on common LLM serving setups with an A100 node, where AsyncSpade fully overlaps KV-cache operations with the inference pipeline, achieving theoretical optimal time-per-output-token (TPOT). Specifically, AsyncSpade delivers over 20% reduction on TPOT compared to SoTA baseline (i.e. Quest) and at least 50% TPOT reduction compared to full attention on Qwen3-8B and Qwen3-32B models, while matching or surpassing their accuracy on various TTS benchmarks (AIME-24/25, GPQA-Diamond, MATH-500).
- Abstract(参考訳): テストタイムスケーリング(TTS)は、長いチェーン・オブ・シークレット(CoT)を介してLLM推論を促進するが、線形KVキャッシュ成長はLLM復号のメモリバウンドボトルネックを増幅する。
クエリ対応のページレベルのスパースデコーディングは、制約付きFLOPの予算下での最先端のパフォーマンスを実現することができるが、逐次依存ページフィルタリングと粗粒度トークン選択の両方によって制限されている。
本稿では,最近のクエリのショートウインドウから,現在のステップのクエリ状態を統一的に近似し,デコードループを待たずに,トレーニング不要なクエリアウェアスを実現できることを最初に見出した。
我々は,(1)次トーケンクエリ状態を予測する新しい軽量時間回帰モジュール,(2)自動回帰デコードループからKVキャッシュフィルタを分離する非同期・非集約フレームワーク,の2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
私たちの知る限り、AsyncSpadeは、モデルパフォーマンスを犠牲にすることなく、シーケンシャルな依存を取り除く最初の方法です。
そこではAsyncSpadeがKV-cache操作と推論パイプラインと完全に重なり合っており、理論的に最適時間/アウトプット・トケン(TPOT)を実現する。
具体的には、AsyncSpadeは、様々なTSベンチマーク(AIME-24/25, GPQA-Diamond, MATH-500)で精度を一致または上回りながら、SoTAベースライン(クエスト)に比べて20%以上TPOTが減少し、Qwen3-8BとQwen3-32Bのモデルに対して少なくとも50%TPOTが減少する。
関連論文リスト
- dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding [21.609237262034636]
大規模言語モデル(LLM)における自己回帰復号には、$n$トークンに対して$mathcalO(n)$シーケンシャルステップが必要である。
本稿では,並列デコード学習(Learn2PD)を提案する。これは軽量かつ適応的なフィルタモデルをトレーニングし,各トークン位置に対して,現在の予測が最終出力と一致するかどうかを予測するフレームワークである。
この学習されたフィルタは、正しく予測された場合にのみトークンをアンマスクするオラクル並列復号法を近似する。
論文 参考訳(メタデータ) (2025-09-29T17:59:54Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Faster and Better LLMs via Latency-Aware Test-Time Scaling [47.3923926808606]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。
既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。
計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文 参考訳(メタデータ) (2025-05-26T07:51:30Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - PecSched: Preemptive and Efficient Cluster Scheduling for LLM Inference [11.194752361478567]
既存のクラスタレベルのLLMスケジューリング戦略は主に2K以下のショートインプット要求をターゲットとしている。
プリエンプティブで効率的なクラスタレベルのLLM推論スケジューラであるPecSchedを提案する。
PecSchedは,99%の待ち行列遅延を最大92%削減し,スループットを最大595%向上することを示す。
論文 参考訳(メタデータ) (2024-09-23T15:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。