論文の概要: SAM Decoding: Speculative Decoding via Suffix Automaton
- arxiv url: http://arxiv.org/abs/2411.10666v3
- Date: Mon, 16 Dec 2024 10:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:40.952319
- Title: SAM Decoding: Speculative Decoding via Suffix Automaton
- Title(参考訳): SAMデコーディング:Suffix Automatonによる投機的デコーディング
- Authors: Yuxuan Hu, Ke Wang, Xiaokang Zhang, Fanjin Zhang, Cuiping Li, Hong Chen, Jing Zhang,
- Abstract要約: 本稿では,検索に基づく新しい投機的復号法を提案する。
共通テキストコーパスと動的テキストシーケンスを利用して、効率よく正確なドラフト生成のために接尾辞オートマトンを適応する。
Spec-Benchの実験から,本手法は他のSD法よりも18%以上高速であることがわかった。
- 参考スコア(独自算出の注目度): 22.289906743980445
- License:
- Abstract: Speculative decoding (SD) has been demonstrated as an effective technique for lossless LLM inference acceleration. Retrieval-based SD methods, one kind of model-free method, have yielded promising speedup, but they often rely on incomplete retrieval resources, inefficient retrieval methods, and are constrained to certain domains. This paper presents a novel retrieval-based speculative decoding method that adapts suffix automaton (SAM) for efficient and accurate draft generation by utilizing common text corpus and dynamic text sequence. Unlike existing $n$-gram matching methods, SAM-Decoding finds the exact longest suffix match, achieving an average time complexity of O(1) per generation step of SAM update and suffix retrieval. It can also integrate with existing methods, adaptively selecting a draft generation strategy based on match length to generalize to broader domains. Extensive experiments on Spec-Bench show that our method is $18\%+$ faster than other retrieval-based SD methods. Additionally, when combined with advanced EAGLE-2, it provides an additional speedup of $3.28\%$ -- $11.13\%$ across various-sized LLM backbones. Our code is available at our \href{https://github.com/hyx1999/SAM-Decoding}{repository}.
- Abstract(参考訳): 投機的復号化(SD)は、ロスレスLLM推論加速に有効な手法として実証されている。
検索型SD法はモデルフリー手法の一種であり,有望な高速化を実現しているが,不完全な検索資源や非効率な検索手法に頼り,特定の領域に制約されることが多い。
本稿では、共通テキストコーパスと動的テキストシーケンスを利用して、サフィックスオートマトン(SAM)を効率よく正確なドラフト生成に適応させる、検索に基づく新しい投機的復号法を提案する。
既存の$n$-gramマッチング法とは異なり、SAM-Decodingは最も長い接尾辞マッチングを見つけ、SAM更新と接尾辞検索の世代毎の平均時間複雑性を達成している。
また、マッチ長に基づいたドラフト生成戦略を適応的に選択して、より広い領域に一般化する既存の手法との統合も可能である。
Spec-Benchでの大規模な実験により,本手法は他の検索ベースSD法よりも18\%+$高速であることが判明した。
さらに、高度なEAGLE-2と組み合わせることで、様々なサイズのLCMバックボーンに3.28\% -- 11.13\%のスピードアップを提供する。
私たちのコードは、我々の \href{https://github.com/hyx 1999/SAM-Decoding}{repository} で利用可能です。
関連論文リスト
- SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。
当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。
プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T11:27:34Z) - A Frustratingly Simple Decoding Method for Neural Text Generation [96.10656449120165]
我々は、FSD(Frustratingly Simple Decoding)と呼ばれる、非常に単純で、超効率的で驚くほど効果的な復号法を導入する。
FSDの背景にある考え方は単純で、私たちは以前に生成されたテキストに基づいてアンチLMを構築し、このアンチLMを使用して、生成したものの将来の世代をペナルティ化する。
実験では、FSDは現在の標準法よりも優れていることが示されています。
論文 参考訳(メタデータ) (2023-05-22T03:28:47Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。