Fugu-MT 論文翻訳(概要): Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding

論文の概要: Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding

arxiv url: http://arxiv.org/abs/2401.07851v1
Date: Mon, 15 Jan 2024 17:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 16:23:30.208536
Title: Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding
Title（参考訳）: 大規模言語モデル推論における解錠効率:投機的復号化に関する総合的な調査
Authors: Heming Xia, Zhe Yang, Qingxiu Dong, Peiyi Wang, Yongqi Li, Tao Ge, Tianyu Liu, Wenjie Li, Zhifang Sui
Abstract要約: 投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。復号処理の各ステップにおいて、この手法はまずいくつかの将来のトークンを効率的にドラフトし、それらを並列に検証する。自己回帰デコーディングとは異なり、投機的デコーディングはステップ毎に複数のトークンを同時にデコーディングし、推論を加速させる。
参考スコア（独自算出の注目度）: 48.23348694701169
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To mitigate the high inference latency stemming from autoregressive decoding in Large Language Models (LLMs), Speculative Decoding has emerged as a novel decoding paradigm for LLM inference. In each decoding step, this method first efficiently drafts several future tokens and then verifies them in parallel. Unlike autoregressive decoding, Speculative Decoding facilitates the simultaneous decoding of multiple tokens per step, thereby accelerating inference. This paper presents a comprehensive overview and analysis of this promising decoding paradigm. We begin by providing a formal definition and formulation of Speculative Decoding. Then, we organize in-depth discussions on its key facets, including current leading techniques, the challenges faced, and potential future directions in this field. We aim for this work to serve as a catalyst for further research on Speculative Decoding, ultimately contributing to more efficient LLM inference.
Abstract（参考訳）: 大規模言語モデル(LLM)における自己回帰復号化に起因する高い推論遅延を軽減するため、投機的復号化はLLM推論の新しい復号パラダイムとして登場した。各デコーディングステップにおいて、このメソッドは、まずいくつかの将来のトークンを効率的にドラフトし、それからそれらを並列に検証する。自己回帰デコーディングとは異なり、投機的デコーディングはステップ毎に複数のトークンを同時にデコーディングし、推論を加速させる。本稿では,このデコーディングパラダイムの包括的概要と解析について述べる。まず、形式的な定義と投機的復号の定式化を提供することから始める。そして,その重要な課題について,現在の先導技術,直面する課題,この分野の今後の方向性など,詳細な議論をまとめる。本研究は、投機的復号化のさらなる研究の触媒となることを目指しており、最終的にはより効率的なLLM推論に寄与する。

関連論文リスト

LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文参考訳（メタデータ） (2025-07-06T14:35:43Z)
Tutorial Proposal: Speculative Decoding for Efficient LLM Inference [13.711626189861313]
投機的復号法(SD: Speculative Decoding)は、LLM推論高速化のための高度な手法である。このチュートリアルでは、ドラフトモデルアーキテクチャや検証戦略など、SDの最新技術について詳しく説明している。
論文参考訳（メタデータ） (2025-03-01T13:34:42Z)
Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文参考訳（メタデータ） (2024-11-20T09:46:30Z)
A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文参考訳（メタデータ） (2024-10-30T01:53:04Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
SED: Self-Evaluation Decoding Enhances Large Language Models for Better Generation [35.10931307279044]
本稿では,モデル生成の高速化を目的とした自己評価復号法であるSEDを提案する。推測と評価のステップをデコードプロセスに統合し、LCMがより慎重に決定できるようにします。
論文参考訳（メタデータ） (2024-05-26T12:43:18Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2024-02-10T11:14:53Z)
Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文参考訳（メタデータ） (2023-09-17T00:29:32Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。