論文の概要: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding
- arxiv url: http://arxiv.org/abs/2307.05908v2
- Date: Mon, 29 Jul 2024 04:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:06:50.381957
- Title: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding
- Title(参考訳): Predictive Pipelined Decoding: Exact LLM Decodingのための計算レイテンシトレードオフ
- Authors: Seongjun Yang, Gibbeum Lee, Jaewoong Cho, Dimitris Papailiopoulos, Kangwook Lee,
- Abstract要約: 予測パイプラインデコーディング(英: Predictive Pipelined Decoding、PPD)とは、大規模言語モデル(LLM)におけるグレディデコーディングを高速化する手法である。
従来の戦略とは異なり、PDDはその後のトークン復号の開始を並列化するために追加の計算資源を使用する。
我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。
- 参考スコア(独自算出の注目度): 12.49711203027534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents "Predictive Pipelined Decoding (PPD)," an approach that speeds up greedy decoding in Large Language Models (LLMs) while maintaining the exact same output as the original decoding. Unlike conventional strategies, PPD employs additional compute resources to parallelize the initiation of subsequent token decoding during the current token decoding. This method reduces decoding latency and reshapes the understanding of trade-offs in LLM decoding strategies. We have developed a theoretical framework that allows us to analyze the trade-off between computation and latency. Using this framework, we can analytically estimate the potential reduction in latency associated with our proposed method, achieved through the assessment of the match rate, represented as p_correct. The results demonstrate that the use of extra computational resources has the potential to accelerate LLM decoding. Additionally, we implement PPD and conduct preliminary experiments to empirically validate its efficacy, addressing potential practical overheads not covered by theoretical analysis.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) におけるgreedy decodingを高速化する手法として,予測パイプラインデコーディング(PPD)を提案する。
従来の戦略とは異なり、PDDは現在のトークン復号時に後のトークン復号の開始を並列化するために追加の計算資源を使用する。
この手法は遅延を減らし、LLM復号戦略におけるトレードオフの理解を再考する。
我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。
提案手法は,p_correct で表される一致率の評価により,提案手法に付随する遅延の潜在的な低減を解析的に推定する。
その結果、余剰の計算資源を使用することで、LCM復号化を加速する可能性が示された。
さらに, PPD を実装し, その有効性を実証的に検証するための予備実験を実施し, 理論的解析によってカバーされていない潜在的な現実的オーバーヘッドに対処する。
関連論文リスト
- Error correction of parity-encoding-based annealing through post-readout
decoding [0.0]
我々はモンテカルロシミュレーションを通して、この冗長符号化がパリティ符号化方式の不効率性と計算コストの問題を解決するために利用されることを示した。
本研究は,QAを短期量子技術で実現するためのパリティ符号化方式の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-02-13T22:55:58Z) - Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding [46.485363806259265]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。
復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。
本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文 参考訳(メタデータ) (2024-01-15T17:26:50Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Learned layered coding for Successive Refinement in the Wyner-Ziv
Problem [18.134147308944446]
本稿では,連続したソースのプログレッシブエンコーディングを明示的に学習するためのデータ駆動型アプローチを提案する。
この設定は、Wyner-Ziv符号問題の連続的な改善を指す。
我々は、RNNがスケーラブルなネスト量子化と同様の層状ビニングソリューションを明示的に検索できることを実証した。
論文 参考訳(メタデータ) (2023-11-06T12:45:32Z) - Graph Neural Networks for Enhanced Decoding of Quantum LDPC Codes [6.175503577352742]
量子低密度パリティチェック(LDPC)符号に対する微分可能な反復デコーダを提案する。
提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。
論文 参考訳(メタデータ) (2023-10-26T19:56:25Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - Coded Distributed Computing with Partial Recovery [56.08535873173518]
部分回復型符号化計算(CCPR)と呼ばれる新しい符号化行列ベクトル乗法を導入する。
CCPRは計算時間と復号化の複雑さを減らし、精度と計算速度のトレードオフを可能にする。
次に、この手法をより一般的な計算タスクの分散実装に拡張し、部分的回復を伴う符号化通信方式を提案する。
論文 参考訳(メタデータ) (2020-07-04T21:34:49Z) - A PDD Decoder for Binary Linear Codes With Neural Check Polytope
Projection [43.97522161614078]
基本ポリトープに基づく最大可算(ML)復号問題に対処するPDDアルゴリズムを提案する。
また、PDD復号アルゴリズムの最も時間を要する部分に機械学習技術を統合することを提案する。
本稿では、デコード遅延を低減するために特別に設計されたニューラルCPP(N CPP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-11T07:57:15Z) - Age-Based Coded Computation for Bias Reduction in Distributed Learning [57.9123881133818]
コード計算は、分散学習の高速化に使用することができる。
勾配ベクトルの部分回復は、各反復時の計算時間をさらに短縮することができる。
重なり合う行動が時間とともに相関すると、推定バイアスが特に顕著になる。
論文 参考訳(メタデータ) (2020-06-02T17:51:11Z) - Pruning Neural Belief Propagation Decoders [77.237958592189]
本稿では,機械学習を用いたBPデコードに対して,過剰完全パリティチェック行列を調整する手法を提案する。
我々は,デコーダの複雑さを低減しつつ,0.27dB,1.5dBのML性能を実現する。
論文 参考訳(メタデータ) (2020-01-21T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。