論文の概要: SAM Decoding: Speculative Decoding via Suffix Automaton
- arxiv url: http://arxiv.org/abs/2411.10666v1
- Date: Sat, 16 Nov 2024 02:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:53.244421
- Title: SAM Decoding: Speculative Decoding via Suffix Automaton
- Title(参考訳): SAMデコーディング:Suffix Automatonによる投機的デコーディング
- Authors: Yuxuan Hu, Ke Wang, Jing Zhang, Cuiping Li, Hong Chen,
- Abstract要約: 大規模言語モデル(LLM)は、タスクをテキスト生成に統一することで自然言語処理に革命をもたらしたが、その大きなパラメータサイズと自己回帰的自然制限推論速度は変化している。
SAM-Decodingは、サフィックスオートマトンを用いて効率よく正確なドラフト生成を行う新しい検索ベースの投機的復号法を導入することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 18.715558545778308
- License:
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing by unifying tasks into text generation, yet their large parameter sizes and autoregressive nature limit inference speed. SAM-Decoding addresses this by introducing a novel retrieval-based speculative decoding method that uses a suffix automaton for efficient and accurate draft generation. Unlike n-gram matching used by the existing method, SAM-Decoding finds the longest suffix match in generating text and text corpuss, achieving an average time complexity of $O(1)$ per generation step. SAM-Decoding constructs static and dynamic suffix automatons for the text corpus and input prompts, respectively, enabling fast and precise draft generation. Meanwhile, it is designed as an approach that can be combined with existing methods, allowing SAM-Decoding to adaptively select a draft generation strategy based on the matching length, thus increasing the inference speed of the LLM. When combined with Token Recycling, evaluations show SAM-Decoding outperforms existing model-free methods, achieving a speedup of $2.27\times$ over autoregressive decoding on Spec-Bench. When combined with EAGLE2, it reaches a speedup of $2.49\times$, surpassing all current approaches. Our code is available at https://github.com/hyx1999/SAM-Decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスクをテキスト生成に統一することで自然言語処理に革命をもたらしたが、その大きなパラメータサイズと自己回帰的自然制限推論速度は変化している。
SAM-Decodingは、サフィックスオートマトンを用いて効率よく正確なドラフト生成を行う新しい検索ベースの投機的復号法を導入することで、この問題に対処する。
既存の手法で使われるn-gramマッチングとは異なり、SAM-Decodingはテキストとテキストコーパスを生成する際に最も長い接尾辞マッチングを見つけ、生成ステップあたりの平均時間はO(1)$である。
SAM-Decodingはテキストコーパスと入力プロンプトのための静的および動的接尾辞オートマトンを構築し、高速かつ正確なドラフト生成を可能にする。
一方,既存の手法と組み合わせることができるアプローチとして設計されており,SAM-Decodingはマッチング長に基づいてドラフト生成戦略を適応的に選択できるため,LLMの推論速度が向上する。
Tokenリサイクリングと組み合わせると、SAM-Decodingは既存のモデルフリーメソッドよりも優れており、Spec-Benchの自己回帰デコーディングよりも2.27\times$のスピードアップを実現している。
EAGLE2と組み合わせると、現在の全てのアプローチを上回り、$2.49\times$に達する。
私たちのコードはhttps://github.com/hyx1999/SAM-Decoding.comで利用可能です。
関連論文リスト
- SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。
当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。
プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。
SAMの更新には2つの勾配を瞬時に計算する必要がある。
我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文 参考訳(メタデータ) (2024-10-14T16:21:23Z) - Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [54.51932175059004]
本稿では,大規模言語モデルのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。
提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
論文 参考訳(メタデータ) (2024-07-29T20:42:59Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。