論文の概要: AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding
- arxiv url: http://arxiv.org/abs/2510.07486v1
- Date: Wed, 08 Oct 2025 19:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.694566
- Title: AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding
- Title(参考訳): AsyncSpade: 非同期スパースデコーディングによる効率的なテスト時間スケーリング
- Authors: Shuqing Luo, Yilin Guan, Pingzhi Li, Hanrui Wang, Tianlong Chen,
- Abstract要約: テストタイムスケーリング(TTS)は長いチェーン・オブ・シント(CoT)を介してLCM推論を促進する
KV-cache成長は、LLMデコーディングのメモリバウンドボトルネックを増幅する。
2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
- 参考スコア(独自算出の注目度): 35.10915929939651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS) boosts LLM reasoning via long chain-of-thought (CoT), but the linear KV-cache growth amplifies the memory-bound bottleneck of LLM decoding. Query-aware page-level sparse decoding can achieve state-of-the-art performance under constrained FLOPs budgets, but is limited by both sequential-dependent page filtering and coarse-grained token selection, hampering serving efficiency and model performance on TTS tasks under high concurrency and long CoT scenarios (consuming even higher runtime than the forward pipeline itself). In this paper, we first find that the current-step query state can be accurately approximated in a unified manner from a short window of recent queries, enabling training-free query-aware sparsity without waiting in the decoding loop. We propose AsyncSpade, an asynchronous framework for efficient TTS built on two core components: (1) a novel light-weight temporal-regressive module that predicts the next-token query state; (2) an asynchronous and disaggregated framework that decouples the KV cache filtering from the auto-regressive decoding loop, overlapping the token-level KV selection with the forward inference computation through asynchronism. To our knowledge, AsyncSpade is the first to eliminate the sequential dependence without sacrificing model performance. We validate the effectiveness of AsyncSpade on common LLM serving setups with an A100 node, where AsyncSpade fully overlaps KV-cache operations with the inference pipeline, achieving theoretical optimal time-per-output-token (TPOT). Specifically, AsyncSpade delivers over 20% reduction on TPOT compared to SoTA baseline (i.e. Quest) and at least 50% TPOT reduction compared to full attention on Qwen3-8B and Qwen3-32B models, while matching or surpassing their accuracy on various TTS benchmarks (AIME-24/25, GPQA-Diamond, MATH-500).
- Abstract(参考訳): テストタイムスケーリング(TTS)は、長いチェーン・オブ・シークレット(CoT)を介してLLM推論を促進するが、線形KVキャッシュ成長はLLM復号のメモリバウンドボトルネックを増幅する。
クエリ対応のページレベルのスパースデコーディングは、制約付きFLOPの予算下での最先端のパフォーマンスを実現することができるが、逐次依存ページフィルタリングと粗粒度トークン選択の両方によって制限されている。
本稿では,最近のクエリのショートウインドウから,現在のステップのクエリ状態を統一的に近似し,デコードループを待たずに,トレーニング不要なクエリアウェアスを実現できることを最初に見出した。
我々は,(1)次トーケンクエリ状態を予測する新しい軽量時間回帰モジュール,(2)自動回帰デコードループからKVキャッシュフィルタを分離する非同期・非集約フレームワーク,の2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
私たちの知る限り、AsyncSpadeは、モデルパフォーマンスを犠牲にすることなく、シーケンシャルな依存を取り除く最初の方法です。
そこではAsyncSpadeがKV-cache操作と推論パイプラインと完全に重なり合っており、理論的に最適時間/アウトプット・トケン(TPOT)を実現する。
具体的には、AsyncSpadeは、様々なTSベンチマーク(AIME-24/25, GPQA-Diamond, MATH-500)で精度を一致または上回りながら、SoTAベースライン(クエスト)に比べて20%以上TPOTが減少し、Qwen3-8BとQwen3-32Bのモデルに対して少なくとも50%TPOTが減少する。
関連論文リスト
- Divide-and-Conquer CoT: RL for Reducing Latency via Parallel Reasoning [18.5812457692667]
我々は、遅延を低減するためにDivide-and-Conquer CoT (DC-CoT) を訓練することを提案する。
DC-CoTは、推論プロセスで並列に実行できる異なるサブタスクを識別するディレクタとして機能し、サブタスクを実行するためにワーカーを生成できる。
我々のゴールは、応答に必要な遅延の理論的尺度である、最も長い経路長で高い精度を達成することである。
論文 参考訳(メタデータ) (2026-01-30T14:37:07Z) - AsyncHZP: Hierarchical ZeRO Parallelism with Asynchronous Scheduling for Scalable LLM Training [4.643969942380424]
単純さとメモリ効率を維持しつつ,優れた性能を実現するために,ZeROの新しい非同期版を提案する。
非効率な通信につながるような細粒度のシャーディングを使用する従来のZeROとは異なり、AsyncHZPはパラメータ、勾配、および異なるレプリカグループ間の状態を適応的に再シャーディングする。
AsyncHZPは古典的なND並列性より一貫して優れており、複雑な戦略的チューニングなしに最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-23T01:29:35Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding [21.609237262034636]
大規模言語モデル(LLM)における自己回帰復号には、$n$トークンに対して$mathcalO(n)$シーケンシャルステップが必要である。
本稿では,並列デコード学習(Learn2PD)を提案する。これは軽量かつ適応的なフィルタモデルをトレーニングし,各トークン位置に対して,現在の予測が最終出力と一致するかどうかを予測するフレームワークである。
この学習されたフィルタは、正しく予測された場合にのみトークンをアンマスクするオラクル並列復号法を近似する。
論文 参考訳(メタデータ) (2025-09-29T17:59:54Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Faster and Better LLMs via Latency-Aware Test-Time Scaling [47.3923926808606]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。
既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。
計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文 参考訳(メタデータ) (2025-05-26T07:51:30Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - PecSched: Preemptive and Efficient Cluster Scheduling for LLM Inference [11.194752361478567]
既存のクラスタレベルのLLMスケジューリング戦略は主に2K以下のショートインプット要求をターゲットとしている。
プリエンプティブで効率的なクラスタレベルのLLM推論スケジューラであるPecSchedを提案する。
PecSchedは,99%の待ち行列遅延を最大92%削減し,スループットを最大595%向上することを示す。
論文 参考訳(メタデータ) (2024-09-23T15:16:29Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。