論文の概要: SAM Decoding: Speculative Decoding via Suffix Automaton
- arxiv url: http://arxiv.org/abs/2411.10666v2
- Date: Fri, 29 Nov 2024 08:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:45.486233
- Title: SAM Decoding: Speculative Decoding via Suffix Automaton
- Title(参考訳): SAMデコーディング:Suffix Automatonによる投機的デコーディング
- Authors: Yuxuan Hu, Ke Wang, Xiaokang Zhang, Fanjin Zhang, Cuiping Li, Hong Chen, Jing Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、タスクをテキスト生成に統一することで自然言語処理に革命をもたらしたが、その大きなパラメータサイズと自己回帰的自然制限推論速度は変化している。
SAM-Decodingは、サフィックスオートマトンを用いて効率よく正確なドラフト生成を行う新しい検索ベースの投機的復号法を導入することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 22.289906743980445
- License:
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing by unifying tasks into text generation, yet their large parameter sizes and autoregressive nature limit inference speed. SAM-Decoding addresses this by introducing a novel retrieval-based speculative decoding method that uses a suffix automaton for efficient and accurate draft generation. Unlike n-gram matching used by the existing method, SAM-Decoding finds the longest suffix match in generating text and text corpuss, achieving an average time complexity of $O(1)$ per generation step. SAM-Decoding constructs static and dynamic suffix automatons for the text corpus and input prompts, respectively, enabling fast and precise draft generation. Meanwhile, it is designed as an approach that can be combined with existing methods, allowing SAM-Decoding to adaptively select a draft generation strategy based on the matching length, thus increasing the inference speed of the LLM. When combined with Token Recycling, evaluations show SAM-Decoding outperforms existing model-free methods, achieving a speedup of $2.27\times$ over autoregressive decoding on Spec-Bench. When combined with EAGLE2, it reaches a speedup of $2.49\times$, surpassing all current approaches. Our code is available at https://github.com/hyx1999/SAM-Decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスクをテキスト生成に統一することで自然言語処理に革命をもたらしたが、その大きなパラメータサイズと自己回帰的自然制限推論速度は変化している。
SAM-Decodingは、サフィックスオートマトンを用いて効率よく正確なドラフト生成を行う新しい検索ベースの投機的復号法を導入することで、この問題に対処する。
既存の手法で使われるn-gramマッチングとは異なり、SAM-Decodingはテキストとテキストコーパスを生成する際に最も長い接尾辞マッチングを見つけ、生成ステップあたりの平均時間はO(1)$である。
SAM-Decodingはテキストコーパスと入力プロンプトのための静的および動的接尾辞オートマトンを構築し、高速かつ正確なドラフト生成を可能にする。
一方,既存の手法と組み合わせることができるアプローチとして設計されており,SAM-Decodingはマッチング長に基づいてドラフト生成戦略を適応的に選択できるため,LLMの推論速度が向上する。
Tokenリサイクリングと組み合わせると、SAM-Decodingは既存のモデルフリーメソッドよりも優れており、Spec-Benchの自己回帰デコーディングよりも2.27\times$のスピードアップを実現している。
EAGLE2と組み合わせると、現在の全てのアプローチを上回り、$2.49\times$に達する。
私たちのコードはhttps://github.com/hyx1999/SAM-Decoding.comで利用可能です。
関連論文リスト
- SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。
当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。
プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T11:27:34Z) - A Frustratingly Simple Decoding Method for Neural Text Generation [96.10656449120165]
我々は、FSD(Frustratingly Simple Decoding)と呼ばれる、非常に単純で、超効率的で驚くほど効果的な復号法を導入する。
FSDの背景にある考え方は単純で、私たちは以前に生成されたテキストに基づいてアンチLMを構築し、このアンチLMを使用して、生成したものの将来の世代をペナルティ化する。
実験では、FSDは現在の標準法よりも優れていることが示されています。
論文 参考訳(メタデータ) (2023-05-22T03:28:47Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。