Fugu-MT 論文翻訳(概要): SAM Decoding: Speculative Decoding via Suffix Automaton

論文の概要: SAM Decoding: Speculative Decoding via Suffix Automaton

arxiv url: http://arxiv.org/abs/2411.10666v3
Date: Mon, 16 Dec 2024 10:48:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.248235
Title: SAM Decoding: Speculative Decoding via Suffix Automaton
Title（参考訳）: SAMデコーディング:Suffix Automatonによる投機的デコーディング
Authors: Yuxuan Hu, Ke Wang, Xiaokang Zhang, Fanjin Zhang, Cuiping Li, Hong Chen, Jing Zhang,
Abstract要約: 本稿では,検索に基づく新しい投機的復号法を提案する。共通テキストコーパスと動的テキストシーケンスを利用して、効率よく正確なドラフト生成のために接尾辞オートマトンを適応する。 Spec-Benchの実験から,本手法は他のSD法よりも18%以上高速であることがわかった。
参考スコア（独自算出の注目度）: 22.289906743980445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding (SD) has been demonstrated as an effective technique for lossless LLM inference acceleration. Retrieval-based SD methods, one kind of model-free method, have yielded promising speedup, but they often rely on incomplete retrieval resources, inefficient retrieval methods, and are constrained to certain domains. This paper presents a novel retrieval-based speculative decoding method that adapts suffix automaton (SAM) for efficient and accurate draft generation by utilizing common text corpus and dynamic text sequence. Unlike existing $n$-gram matching methods, SAM-Decoding finds the exact longest suffix match, achieving an average time complexity of O(1) per generation step of SAM update and suffix retrieval. It can also integrate with existing methods, adaptively selecting a draft generation strategy based on match length to generalize to broader domains. Extensive experiments on Spec-Bench show that our method is $18\%+$ faster than other retrieval-based SD methods. Additionally, when combined with advanced EAGLE-2, it provides an additional speedup of $3.28\%$ -- $11.13\%$ across various-sized LLM backbones. Our code is available at our \href{https://github.com/hyx1999/SAM-Decoding}{repository}.
Abstract（参考訳）: 投機的復号化(SD)は、ロスレスLLM推論加速に有効な手法として実証されている。検索型SD法はモデルフリー手法の一種であり,有望な高速化を実現しているが,不完全な検索資源や非効率な検索手法に頼り,特定の領域に制約されることが多い。本稿では、共通テキストコーパスと動的テキストシーケンスを利用して、サフィックスオートマトン(SAM)を効率よく正確なドラフト生成に適応させる、検索に基づく新しい投機的復号法を提案する。既存の$n$-gramマッチング法とは異なり、SAM-Decodingは最も長い接尾辞マッチングを見つけ、SAM更新と接尾辞検索の世代毎の平均時間複雑性を達成している。また、マッチ長に基づいたドラフト生成戦略を適応的に選択して、より広い領域に一般化する既存の手法との統合も可能である。 Spec-Benchでの大規模な実験により,本手法は他の検索ベースSD法よりも18\%+$高速であることが判明した。さらに、高度なEAGLE-2と組み合わせることで、様々なサイズのLCMバックボーンに3.28\% -- 11.13\%のスピードアップを提供する。私たちのコードは、我々の \href{https://github.com/hyx 1999/SAM-Decoding}{repository} で利用可能です。

関連論文リスト

DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
DReSD: Dense Retrieval for Speculative Decoding [8.220217498103315]
投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。 Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-21T16:32:28Z)
SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。 SAMの更新には2つの勾配を瞬時に計算する必要がある。我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文参考訳（メタデータ） (2024-10-14T16:21:23Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [54.51932175059004]
本稿では,大規模言語モデルのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
論文参考訳（メタデータ） (2024-07-29T20:42:59Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文参考訳（メタデータ） (2024-02-26T18:59:28Z)
Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文参考訳（メタデータ） (2024-02-19T03:39:10Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文参考訳（メタデータ） (2023-10-23T17:47:34Z)
ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文参考訳（メタデータ） (2023-09-16T11:27:34Z)
A Frustratingly Simple Decoding Method for Neural Text Generation [96.10656449120165]
我々は、FSD(Frustratingly Simple Decoding)と呼ばれる、非常に単純で、超効率的で驚くほど効果的な復号法を導入する。 FSDの背景にある考え方は単純で、私たちは以前に生成されたテキストに基づいてアンチLMを構築し、このアンチLMを使用して、生成したものの将来の世代をペナルティ化する。実験では、FSDは現在の標準法よりも優れていることが示されています。
論文参考訳（メタデータ） (2023-05-22T03:28:47Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)
Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文参考訳（メタデータ） (2020-10-27T17:38:51Z)
Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文参考訳（メタデータ） (2020-04-30T18:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。