Fugu-MT 論文翻訳(概要): A Theoretical Perspective for Speculative Decoding Algorithm

論文の概要: A Theoretical Perspective for Speculative Decoding Algorithm

arxiv url: http://arxiv.org/abs/2411.00841v1
Date: Wed, 30 Oct 2024 01:53:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.442518
Title: A Theoretical Perspective for Speculative Decoding Algorithm
Title（参考訳）: 投機的復号アルゴリズムの理論的展望
Authors: Ming Yin, Minshuo Chen, Kaixuan Huang, Mengdi Wang,
Abstract要約: EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
参考スコア（独自算出の注目度）: 60.79447486066416
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based autoregressive sampling has been the major bottleneck for slowing down large language model inferences. One effective way to accelerate inference is \emph{Speculative Decoding}, which employs a small model to sample a sequence of draft tokens and a large model to validate. Given its empirical effectiveness, the theoretical understanding of Speculative Decoding is falling behind. This paper tackles this gap by conceptualizing the decoding problem via markov chain abstraction and studying the key properties, \emph{output quality and inference acceleration}, from a theoretical perspective. Our analysis covers the theoretical limits of speculative decoding, batch algorithms, and output quality-inference acceleration tradeoffs. Our results reveal the fundamental connections between different components of LLMs via total variation distances and show how they jointly affect the efficiency of decoding algorithms.
Abstract（参考訳）: トランスフォーマーベースの自動回帰サンプリングは、大きな言語モデル推論を遅くする主要なボトルネックとなっている。推論を加速する効果的な方法は \emph{Speculative Decoding} である。これは小さなモデルを使用して、ドラフトトークンのシーケンスと検証のための大きなモデルをサンプリングする。経験的効果を考えると、投機的復号法の理論的理解は後れを取っている。本稿では,マルコフ連鎖の抽象化による復号化問題を概念化し,理論的な観点から重要な特性である「emph{output quality and inference acceleration}」を研究することにより,このギャップに対処する。我々の分析では、投機的復号法、バッチアルゴリズム、および出力品質-推論加速トレードオフの理論的限界をカバーしている。この結果から,LLMの異なるコンポーネント間の全変動距離による基本的接続が明らかになり,復号アルゴリズムの効率にどのように影響するかが示された。

関連論文リスト

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文参考訳（メタデータ） (2025-02-26T03:22:44Z)
Enhancing Large Language Model Efficiencyvia Symbolic Compression: A Formal Approach Towards Interpretability [3.9122242678047456]
大規模言語モデル(LLM)は、コード生成と論理的推論タスクにおいて重要なトークン効率のボトルネックに直面します。本稿では,記号圧縮,論理の統合,情報理論の最適符号化,文脈認識推論技術に基づく形式的フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-30T06:40:52Z)
Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders [0.0]
スパース符号化のレンズを用いて,SAEにおけるスパース推論と学習について検討した。計算制限付きエンコーダを用いて,SAEがアモータイズされたスパース推論を行うことを示す。より洗練されたスパース推論手法が従来のSAEエンコーダより優れている条件を実証的に探求する。
論文参考訳（メタデータ） (2024-11-20T08:21:53Z)
Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文参考訳（メタデータ） (2024-10-07T09:08:32Z)
QGait: Toward Accurate Quantization for Gait Recognition with Binarized Input [17.017127559393398]
バックプロパゲーション時の円関数の勾配をよりよくシミュレートする,微分可能なソフト量子化器を提案する。これにより、ネットワークは微妙な入力摂動から学習することができる。量子化エラーをシミュレートしながら収束を確保するためのトレーニング戦略をさらに洗練する。
論文参考訳（メタデータ） (2024-05-22T17:34:18Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding [46.485363806259265]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文参考訳（メタデータ） (2024-01-15T17:26:50Z)
Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding [12.49711203027534]
予測パイプラインデコーディング(英: Predictive Pipelined Decoding、PPD)とは、大規模言語モデル(LLM)におけるグレディデコーディングを高速化する手法である。従来の戦略とは異なり、PDDはその後のトークン復号の開始を並列化するために追加の計算資源を使用する。我々は計算とレイテンシのトレードオフを分析するための理論的フレームワークを開発した。
論文参考訳（メタデータ） (2023-07-12T04:28:41Z)
Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文参考訳（メタデータ） (2022-08-10T07:07:54Z)
Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文参考訳（メタデータ） (2022-03-29T21:00:39Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。