Fugu-MT 論文翻訳(概要): Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding

論文の概要: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding

arxiv url: http://arxiv.org/abs/2307.05908v2
Date: Mon, 29 Jul 2024 04:03:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 01:06:50.381957
Title: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding
Title（参考訳）: Predictive Pipelined Decoding: Exact LLM Decodingのための計算レイテンシトレードオフ
Authors: Seongjun Yang, Gibbeum Lee, Jaewoong Cho, Dimitris Papailiopoulos, Kangwook Lee,
Abstract要約: 予測パイプラインデコーディング(英: Predictive Pipelined Decoding、PPD)とは、大規模言語モデル(LLM)におけるグレディデコーディングを高速化する手法である。従来の戦略とは異なり、PDDはその後のトークン復号の開始を並列化するために追加の計算資源を使用する。我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。
参考スコア（独自算出の注目度）: 12.49711203027534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents "Predictive Pipelined Decoding (PPD)," an approach that speeds up greedy decoding in Large Language Models (LLMs) while maintaining the exact same output as the original decoding. Unlike conventional strategies, PPD employs additional compute resources to parallelize the initiation of subsequent token decoding during the current token decoding. This method reduces decoding latency and reshapes the understanding of trade-offs in LLM decoding strategies. We have developed a theoretical framework that allows us to analyze the trade-off between computation and latency. Using this framework, we can analytically estimate the potential reduction in latency associated with our proposed method, achieved through the assessment of the match rate, represented as p_correct. The results demonstrate that the use of extra computational resources has the potential to accelerate LLM decoding. Additionally, we implement PPD and conduct preliminary experiments to empirically validate its efficacy, addressing potential practical overheads not covered by theoretical analysis.
Abstract（参考訳）: 本稿では,Large Language Models (LLMs) におけるgreedy decodingを高速化する手法として,予測パイプラインデコーディング(PPD)を提案する。従来の戦略とは異なり、PDDは現在のトークン復号時に後のトークン復号の開始を並列化するために追加の計算資源を使用する。この手法は遅延を減らし、LLM復号戦略におけるトレードオフの理解を再考する。我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。提案手法は,p_correct で表される一致率の評価により,提案手法に付随する遅延の潜在的な低減を解析的に推定する。その結果、余剰の計算資源を使用することで、LCM復号化を加速する可能性が示された。さらに, PPD を実装し, その有効性を実証的に検証するための予備実験を実施し, 理論的解析によってカバーされていない潜在的な現実的オーバーヘッドに対処する。

関連論文リスト

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference [4.955827313214081]
Prefill-Decode (P/D) のデアグリゲーションは,Large Language Model (LLM) 推論の最適化戦略として広く採用されている。現在、最適なP/Dハードウェアリソース数を決定するための確立された方法論は存在しない。理論的モデリングと経験的ベンチマークを組み合わせたハイブリッドアプローチを提案する。
論文参考訳（メタデータ） (2026-03-05T01:41:09Z)
Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-26T07:53:41Z)
Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。この知見に触発されて、我々はLanguage Rankerを提案する。実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文参考訳（メタデータ） (2025-10-23T17:56:46Z)
READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文参考訳（メタデータ） (2025-08-12T16:47:48Z)
Power and Limitations of Linear Programming Decoder for Quantum LDPC Codes [0.30912596009895504]
量子エラー訂正符号の復号化は、フォールトトレラントな量子計算を実現する上で重要な課題である。本研究では,量子低密度パリティチェック符号に対する線形プログラミング(LP)デコーディングの鍵となる限界を明らかにする。我々は,順序付き統計復号法(OSD)と呼ばれる後処理技術を導入し,実際にLP復号性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-08-06T18:00:01Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [63.34626300024294]
TimeXLはプロトタイプベースの時系列エンコーダを統合するマルチモーダル予測フレームワークである。より正確な予測と解釈可能な説明を生成する。 4つの実世界のデータセットに対する実証的な評価は、TimeXLがAUCで最大8.9%の改善を達成していることを示している。
論文参考訳（メタデータ） (2025-03-02T20:40:53Z)
Tutorial Proposal: Speculative Decoding for Efficient LLM Inference [13.711626189861313]
投機的復号法(SD: Speculative Decoding)は、LLM推論高速化のための高度な手法である。このチュートリアルでは、ドラフトモデルアーキテクチャや検証戦略など、SDの最新技術について詳しく説明している。
論文参考訳（メタデータ） (2025-03-01T13:34:42Z)
A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文参考訳（メタデータ） (2024-10-30T01:53:04Z)
Limitations of the decoding-to-LPN reduction via code smoothing [59.90381090395222]
LPN問題(Learning Parity with Noise)は、いくつかの古典的な暗号プリミティブの根底にある問題である。本稿では,線形符号の復号化問題から,難易度がいくつか存在することの低減を試みている。我々は、復号化の効率を、復号化のパラメータと問題の観点から特徴づける。
論文参考訳（メタデータ） (2024-08-07T12:54:43Z)
Error correction of parity-encoding-based annealing through post-readout decoding [0.0]
我々はモンテカルロシミュレーションを通して、この冗長符号化がパリティ符号化方式の不効率性と計算コストの問題を解決するために利用されることを示した。本研究は,QAを短期量子技術で実現するためのパリティ符号化方式の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-02-13T22:55:58Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding [46.485363806259265]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文参考訳（メタデータ） (2024-01-15T17:26:50Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Graph Neural Networks for Enhanced Decoding of Quantum LDPC Codes [6.175503577352742]
量子低密度パリティチェック(LDPC)符号に対する微分可能な反復デコーダを提案する。提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。
論文参考訳（メタデータ） (2023-10-26T19:56:25Z)
Coded Distributed Computing with Partial Recovery [56.08535873173518]
部分回復型符号化計算(CCPR)と呼ばれる新しい符号化行列ベクトル乗法を導入する。 CCPRは計算時間と復号化の複雑さを減らし、精度と計算速度のトレードオフを可能にする。次に、この手法をより一般的な計算タスクの分散実装に拡張し、部分的回復を伴う符号化通信方式を提案する。
論文参考訳（メタデータ） (2020-07-04T21:34:49Z)
A PDD Decoder for Binary Linear Codes With Neural Check Polytope Projection [43.97522161614078]
基本ポリトープに基づく最大可算(ML)復号問題に対処するPDDアルゴリズムを提案する。また、PDD復号アルゴリズムの最も時間を要する部分に機械学習技術を統合することを提案する。本稿では、デコード遅延を低減するために特別に設計されたニューラルCPP(N CPP)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-11T07:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。