Fugu-MT 論文翻訳(概要): PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding

論文の概要: PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding

arxiv url: http://arxiv.org/abs/2505.01572v1
Date: Fri, 02 May 2025 20:29:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.180873
Title: PipeSpec: Breaking Stage Dependencies in Hierarchical LLM Decoding
Title（参考訳）: PipeSpec: 階層型LLMデコーディングにおけるステージ依存性の破壊
Authors: Bradley McDanel, Sai Qian Zhang, Yunhai Hu, Zining Liu,
Abstract要約: PipeSpecは、投機的デコーディングを階層的なパイプラインに配置された$k$モデルに一般化するフレームワークである。 PipeSpecは2.54$times$の高速化を実現し、最先端の手法より優れていることを示す。
参考スコア（独自算出の注目度）: 4.734824660843965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding accelerates large language model inference by using smaller draft models to generate candidate tokens for parallel verification. However, current approaches are limited by sequential stage dependencies that prevent full hardware utilization. We present PipeSpec, a framework that generalizes speculative decoding to $k$ models arranged in a hierarchical pipeline, enabling asynchronous execution with lightweight coordination for prediction verification and rollback. Our analytical model characterizes token generation rates across pipeline stages and proves guaranteed throughput improvements over traditional decoding for any non-zero acceptance rate. We further derive closed-form expressions for steady-state verification probabilities that explain the empirical benefits of pipeline depth. Experimental results show that PipeSpec achieves up to 2.54$\times$ speedup while outperforming state-of-the-art methods. We validate PipeSpec across text summarization and code generation tasks using LLaMA 2 and 3 models, demonstrating that pipeline efficiency increases with model depth, providing a scalable approach to accelerating LLM inference on multi-device systems.
Abstract（参考訳）: 投機的復号化は、より小さなドラフトモデルを用いて、並列検証のための候補トークンを生成することにより、大きな言語モデル推論を加速する。しかし、現在のアプローチは、完全なハードウェア利用を妨げる逐次的なステージ依存によって制限されている。仮説デコーディングを階層的なパイプラインに配置した$k$モデルに一般化し、予測検証とロールバックのための軽量な調整による非同期実行を可能にするフレームワークであるPipeSpecを提案する。分析モデルは,パイプラインステージ間のトークン生成率を特徴付けるとともに,非ゼロ受容率に対する従来の復号化よりも保証されたスループットの向上を証明している。さらに、パイプライン深さの経験的利点を説明する定常検証確率の閉形式式を導出する。実験の結果、PipeSpecは2.54$\times$ Speedupを実現し、最先端の手法より優れていた。 LLaMA 2 と 3 モデルを用いて,テキスト要約およびコード生成タスク間で PipeSpec を検証し,パイプライン効率がモデル深度で向上することを示し,マルチデバイスシステム上での LLM 推論を高速化するためのスケーラブルなアプローチを提供する。

関連論文リスト

FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM Inference [9.279335822985441]
分散推論は、ネットワークエッジでの大規模言語モデル(LLM)の推論を可能にするための有望なアプローチとして機能する。最近のパイプラインベースのアプローチは、通信と計算を並列化する可能性があり、推論遅延を減らすのに役立つ。パイプライン並列ツリーベースの投機的復号化フレームワークであるFlowSpecを提案する。
論文参考訳（メタデータ） (2025-07-03T13:47:42Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文参考訳（メタデータ） (2025-05-12T15:46:28Z)
PipeDec: Low-Latency Pipeline-based Inference with Dynamic Speculative Decoding towards Large-scale Models [20.212041940314016]
パイプライン配置における単一タスクの低グローバルなリソース利用に対処するため,PipeDecという投機的復号化フレームワークを提案する。動的予測ツリーはノード間の予測シーケンスを管理し、効率的な更新とプルーニングを可能にする。 LLama3.2 1Bをドラフトモデルとして、14ステージの並列パイプラインと組み合わせて、LLama3.1 70Bを6種類のデータセットで加速する実験が行われた。
論文参考訳（メタデータ） (2025-04-05T08:31:10Z)
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文参考訳（メタデータ） (2025-02-20T18:58:10Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。 PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文参考訳（メタデータ） (2024-07-16T14:52:02Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。