論文の概要: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM
Decoding
- arxiv url: http://arxiv.org/abs/2307.05908v1
- Date: Wed, 12 Jul 2023 04:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 14:18:44.824305
- Title: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM
Decoding
- Title(参考訳): 予測パイプラインデコーディング: 正確なLLMデコーディングのための計算レイテンシトレードオフ
- Authors: Seongjun Yang, Gibbeum Lee, Jaewoong Cho, Dimitris Papailiopoulos,
Kangwook Lee
- Abstract要約: 予測パイプラインデコーディング(英: Predictive Pipelined Decoding、PPD)とは、大規模言語モデル(LLM)におけるグレディデコーディングを高速化する手法である。
従来の戦略とは異なり、PDDはその後のトークン復号の開始を並列化するために追加の計算資源を使用する。
- 参考スコア(独自算出の注目度): 10.075251895124808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents "Predictive Pipelined Decoding (PPD)," an approach that
speeds up greedy decoding in Large Language Models (LLMs) while maintaining the
exact same output as the original decoding. Unlike conventional strategies, PPD
employs additional compute resources to parallelize the initiation of
subsequent token decoding during the current token decoding. This innovative
method reduces decoding latency and reshapes the understanding of trade-offs in
LLM decoding strategies. We have developed a theoretical framework that allows
us to analyze the trade-off between computation and latency. Using this
framework, we can analytically estimate the potential reduction in latency
associated with our proposed method, achieved through the assessment of the
match rate, represented as p_correct. The results demonstrate that the use of
extra computational resources has the potential to accelerate LLM greedy
decoding.
- Abstract(参考訳): 本稿では,大言語モデル (llms) におけるグリーディ復号化を高速化する手法である "predictive pipelined decoding (ppd)" について述べる。
従来の戦略とは異なり、ppdは追加の計算リソースを使用して、現在のトークンデコード中に続くトークンデコーディングの開始を並列化する。
この革新的な手法はデコード遅延を低減し、llmデコード戦略におけるトレードオフの理解を再構築する。
我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。
このフレームワークを用いて,p_correctとして表される一致率の評価により,提案手法による遅延低減の可能性について解析的に推定する。
その結果,余剰計算資源を用いることで,LCMのグレディ復号化を加速する可能性が示された。
関連論文リスト
- Encode Once and Decode in Parallel: Efficient Transformer Decoding [53.550782959908524]
本稿では,エンコーダ・デコーダモデルのための新しい構成を導入し,構造化された出力と質問応答タスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Error correction of parity-encoding-based annealing through post-readout
decoding [0.0]
我々はモンテカルロシミュレーションを通して、この冗長符号化がパリティ符号化方式の不効率性と計算コストの問題を解決するために利用されることを示した。
本研究は,QAを短期量子技術で実現するためのパリティ符号化方式の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-02-13T22:55:58Z) - Unlocking Efficiency in Large Language Model Inference: A Comprehensive
Survey of Speculative Decoding [48.23348694701169]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。
復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。
本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文 参考訳(メタデータ) (2024-01-15T17:26:50Z) - Learned layered coding for Successive Refinement in the Wyner-Ziv
Problem [18.134147308944446]
本稿では,連続したソースのプログレッシブエンコーディングを明示的に学習するためのデータ駆動型アプローチを提案する。
この設定は、Wyner-Ziv符号問題の連続的な改善を指す。
我々は、RNNがスケーラブルなネスト量子化と同様の層状ビニングソリューションを明示的に検索できることを実証した。
論文 参考訳(メタデータ) (2023-11-06T12:45:32Z) - Graph Neural Networks for Enhanced Decoding of Quantum LDPC Codes [6.175503577352742]
量子低密度パリティチェック(LDPC)符号に対する微分可能な反復デコーダを提案する。
提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。
論文 参考訳(メタデータ) (2023-10-26T19:56:25Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - Coded Distributed Computing with Partial Recovery [56.08535873173518]
部分回復型符号化計算(CCPR)と呼ばれる新しい符号化行列ベクトル乗法を導入する。
CCPRは計算時間と復号化の複雑さを減らし、精度と計算速度のトレードオフを可能にする。
次に、この手法をより一般的な計算タスクの分散実装に拡張し、部分的回復を伴う符号化通信方式を提案する。
論文 参考訳(メタデータ) (2020-07-04T21:34:49Z) - A PDD Decoder for Binary Linear Codes With Neural Check Polytope
Projection [43.97522161614078]
基本ポリトープに基づく最大可算(ML)復号問題に対処するPDDアルゴリズムを提案する。
また、PDD復号アルゴリズムの最も時間を要する部分に機械学習技術を統合することを提案する。
本稿では、デコード遅延を低減するために特別に設計されたニューラルCPP(N CPP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-11T07:57:15Z) - Age-Based Coded Computation for Bias Reduction in Distributed Learning [57.9123881133818]
コード計算は、分散学習の高速化に使用することができる。
勾配ベクトルの部分回復は、各反復時の計算時間をさらに短縮することができる。
重なり合う行動が時間とともに相関すると、推定バイアスが特に顕著になる。
論文 参考訳(メタデータ) (2020-06-02T17:51:11Z) - Pruning Neural Belief Propagation Decoders [77.237958592189]
本稿では,機械学習を用いたBPデコードに対して,過剰完全パリティチェック行列を調整する手法を提案する。
我々は,デコーダの複雑さを低減しつつ,0.27dB,1.5dBのML性能を実現する。
論文 参考訳(メタデータ) (2020-01-21T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。