論文の概要: SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens
- arxiv url: http://arxiv.org/abs/2403.18647v1
- Date: Wed, 27 Mar 2024 14:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:29:03.422590
- Title: SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens
- Title(参考訳): SDSAT:セマンティック適応トークンを用いた投機的復号化によるLCM推論の高速化
- Authors: Chengbo Liu, Yong Zhu,
- Abstract要約: 意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。
この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。
CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
- 参考スコア(独自算出の注目度): 4.5888031410244885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an acceleration scheme for large language models (LLMs) through Speculative Decoding with Semantic Adaptive Tokens (SDSAT). The primary objective of this design is to enhance the LLM model's ability to generate draft tokens more accurately without compromising the model's accuracy. The core strategies involve: 1) Fine-tune the model by incorporating semantic adaptive tokens that possess flexible decoding capabilities without changing its structure, allowing them to generate high-quality draft tokens. 2) By employing a training method that does not affect the standard tokens, the model can acquire parallel decoding abilities atop its original framework with minimal training overhead. 3) We have designed the "two-step-draft-then-verify" generation strategies using both greedy search and nucleus sampling. Experiments conducted on the CodeLlama-13B and 7B models have yielded speed increases of over 3.5X and 3.0X, respectively. Please refer to https://github.com/hasuoshenyun/SDSAT.
- Abstract(参考訳): 本稿では,SDSAT(Semantic Adaptive Tokens)を用いたSpeculative Decodingを通じて,大規模言語モデル(LLM)の高速化手法を提案する。
この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。
中心となる戦略は以下のとおりである。
1) 構造を変更せずにフレキシブルな復号能力を持つ意味適応トークンを組み込むことにより、モデルを微調整し、高品質なドラフトトークンを生成する。
2)標準トークンに影響を与えないトレーニング手法を用いることで,トレーニングオーバーヘッドを最小限に抑えながら,オリジナルのフレームワーク上で並列復号能力を得ることができる。
3) グリーディ探索と核サンプリングの両方を用いて, 「二段階ドリフト検証」 生成戦略を考案した。
CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
https://github.com/hasuoshenyun/SDSATを参照してください。
関連論文リスト
- LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - Ouroboros: Speculative Decoding with Large Model Enhanced Drafting [75.34417163859018]
我々は,大規模言語モデルの検証プロセスから句候補プールを構築するOuroborosを紹介した。
Ouroborosは、ルックアヘッドの復号化や投機的復号化と比較して、最大1.9倍と2.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and
Siamese Decoders [19.68592678093725]
マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
M$3$CSは上記の能力を持つモデルを可能にするために提案されている。
論文 参考訳(メタデータ) (2023-09-23T02:19:21Z) - Draft & Verify: Lossless Large Language Model Acceleration via
Self-Speculative Decoding [26.286435804599524]
本稿では,Large Language Models (LLMs) の高速化を目的とした新しい推論手法,自己投機的デコーディングを提案する。
提案手法では、追加のニューラルネットワークトレーニングを必要とせず、メモリフットプリントを必要とせず、推論アクセラレーションのためのプラグアンドプレイソリューションとなる。
LLaMA-2とその微調整されたモデルによるベンチマークでは、最大1.73$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。