Fugu-MT 論文翻訳(概要): Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding

論文の概要: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding

arxiv url: http://arxiv.org/abs/2307.05908v1
Date: Wed, 12 Jul 2023 04:28:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 14:18:44.824305
Title: Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding
Title（参考訳）: 予測パイプラインデコーディング: 正確なLLMデコーディングのための計算レイテンシトレードオフ
Authors: Seongjun Yang, Gibbeum Lee, Jaewoong Cho, Dimitris Papailiopoulos, Kangwook Lee
Abstract要約: 予測パイプラインデコーディング(英: Predictive Pipelined Decoding、PPD)とは、大規模言語モデル(LLM)におけるグレディデコーディングを高速化する手法である。従来の戦略とは異なり、PDDはその後のトークン復号の開始を並列化するために追加の計算資源を使用する。
参考スコア（独自算出の注目度）: 10.075251895124808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents "Predictive Pipelined Decoding (PPD)," an approach that speeds up greedy decoding in Large Language Models (LLMs) while maintaining the exact same output as the original decoding. Unlike conventional strategies, PPD employs additional compute resources to parallelize the initiation of subsequent token decoding during the current token decoding. This innovative method reduces decoding latency and reshapes the understanding of trade-offs in LLM decoding strategies. We have developed a theoretical framework that allows us to analyze the trade-off between computation and latency. Using this framework, we can analytically estimate the potential reduction in latency associated with our proposed method, achieved through the assessment of the match rate, represented as p_correct. The results demonstrate that the use of extra computational resources has the potential to accelerate LLM greedy decoding.
Abstract（参考訳）: 本稿では,大言語モデル (llms) におけるグリーディ復号化を高速化する手法である "predictive pipelined decoding (ppd)" について述べる。従来の戦略とは異なり、ppdは追加の計算リソースを使用して、現在のトークンデコード中に続くトークンデコーディングの開始を並列化する。この革新的な手法はデコード遅延を低減し、llmデコード戦略におけるトレードオフの理解を再構築する。我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。このフレームワークを用いて,p_correctとして表される一致率の評価により,提案手法による遅延低減の可能性について解析的に推定する。その結果,余剰計算資源を用いることで,LCMのグレディ復号化を加速する可能性が示された。

関連論文リスト

Power and Limitations of Linear Programming Decoder for Quantum LDPC Codes [0.30912596009895504]
量子エラー訂正符号の復号化は、フォールトトレラントな量子計算を実現する上で重要な課題である。本研究では,量子低密度パリティチェック符号に対する線形プログラミング(LP)デコーディングの鍵となる限界を明らかにする。我々は,順序付き統計復号法(OSD)と呼ばれる後処理技術を導入し,実際にLP復号性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-08-06T18:00:01Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [63.34626300024294]
TimeXLはプロトタイプベースの時系列エンコーダを統合するマルチモーダル予測フレームワークである。より正確な予測と解釈可能な説明を生成する。 4つの実世界のデータセットに対する実証的な評価は、TimeXLがAUCで最大8.9%の改善を達成していることを示している。
論文参考訳（メタデータ） (2025-03-02T20:40:53Z)
Tutorial Proposal: Speculative Decoding for Efficient LLM Inference [13.711626189861313]
投機的復号法(SD: Speculative Decoding)は、LLM推論高速化のための高度な手法である。このチュートリアルでは、ドラフトモデルアーキテクチャや検証戦略など、SDの最新技術について詳しく説明している。
論文参考訳（メタデータ） (2025-03-01T13:34:42Z)
A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文参考訳（メタデータ） (2024-10-30T01:53:04Z)
Limitations of the decoding-to-LPN reduction via code smoothing [59.90381090395222]
LPN問題(Learning Parity with Noise)は、いくつかの古典的な暗号プリミティブの根底にある問題である。本稿では,線形符号の復号化問題から,難易度がいくつか存在することの低減を試みている。我々は、復号化の効率を、復号化のパラメータと問題の観点から特徴づける。
論文参考訳（メタデータ） (2024-08-07T12:54:43Z)
Error correction of parity-encoding-based annealing through post-readout decoding [0.0]
我々はモンテカルロシミュレーションを通して、この冗長符号化がパリティ符号化方式の不効率性と計算コストの問題を解決するために利用されることを示した。本研究は,QAを短期量子技術で実現するためのパリティ符号化方式の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-02-13T22:55:58Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding [46.485363806259265]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文参考訳（メタデータ） (2024-01-15T17:26:50Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Graph Neural Networks for Enhanced Decoding of Quantum LDPC Codes [6.175503577352742]
量子低密度パリティチェック(LDPC)符号に対する微分可能な反復デコーダを提案する。提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。
論文参考訳（メタデータ） (2023-10-26T19:56:25Z)
Coded Distributed Computing with Partial Recovery [56.08535873173518]
部分回復型符号化計算(CCPR)と呼ばれる新しい符号化行列ベクトル乗法を導入する。 CCPRは計算時間と復号化の複雑さを減らし、精度と計算速度のトレードオフを可能にする。次に、この手法をより一般的な計算タスクの分散実装に拡張し、部分的回復を伴う符号化通信方式を提案する。
論文参考訳（メタデータ） (2020-07-04T21:34:49Z)
A PDD Decoder for Binary Linear Codes With Neural Check Polytope Projection [43.97522161614078]
基本ポリトープに基づく最大可算(ML)復号問題に対処するPDDアルゴリズムを提案する。また、PDD復号アルゴリズムの最も時間を要する部分に機械学習技術を統合することを提案する。本稿では、デコード遅延を低減するために特別に設計されたニューラルCPP(N CPP)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-11T07:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。