論文の概要: Multi-Candidate Speculative Decoding
- arxiv url: http://arxiv.org/abs/2401.06706v1
- Date: Fri, 12 Jan 2024 17:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:44:26.826317
- Title: Multi-Candidate Speculative Decoding
- Title(参考訳): マルチCandidate Speculative Decoding
- Authors: Sen Yang, Shujian Huang, Xinyu Dai, Jiajun Chen
- Abstract要約: 大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 82.05519287513444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have shown impressive capabilities across a variety of
NLP tasks, yet their generating text autoregressively is time-consuming. One
way to speed them up is speculative decoding, which generates candidate
segments (a sequence of tokens) from a fast draft model that is then verified
in parallel by the target model. However, the acceptance rate of candidate
tokens receives limitations from several factors, such as the model, the
dataset, and the decoding setup. This paper proposes sampling multiple
candidates from a draft model and then organising them in batches for
verification. We design algorithms for efficient multi-candidate verification
while maintaining the distribution of the target model. Our approach shows
significant improvements in acceptance rates on multiple datasets and models,
consistently outperforming standard speculative decoding.
- Abstract(参考訳): 大きな言語モデルは様々なnlpタスクにまたがって印象的な機能を示してきたが、テキストの自動生成は時間を要する。
これは、ターゲットモデルによって並列に検証される高速なドラフトモデルから候補セグメント(トークンのシーケンス)を生成する。
しかし、候補トークンの受け入れ率は、モデル、データセット、デコード設定など、いくつかの要因から制限を受ける。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチで整理する。
対象モデルの分布を維持しつつ,効率的な複数候補検証のためのアルゴリズムを設計する。
我々のアプローチは、複数のデータセットやモデルに対する受け入れ率を大幅に改善し、標準の投機的デコーディングを一貫して上回っていることを示している。
関連論文リスト
- CommitBench: A Benchmark for Commit Message Generation [22.03783968903916]
既存のデータセットはコミット選択の品質など,さまざまな問題を示す。
新しい大規模データセットであるCommitBenchをコンパイルし、データセット作成のベストプラクティスを採用しています。
私たちはCommitBenchを使って既存のモデルを比較し、他のアプローチがソースコードで事前訓練されたTransformerモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-08T09:56:45Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Label-Efficient Model Selection for Text Generation [15.487728508845704]
DiffUseは、候補テキスト生成モデル間の情報決定を効率的に行う方法である。
これにより、必要な好みアノテーションの量を削減し、評価を行う上で貴重な時間とリソースを節約できる。
DiffUseは、高い評価信頼性を維持しながら、必要なアノテーションの数(最大75%)を劇的に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-12T18:54:02Z) - Decoding Speculative Decoding [5.1334640820688175]
投機的復号化(英: Speculative Decoding)は、大規模言語モデル(LLM)の推論を高速化する手法である。
本稿では、与えられたワークロードに対して適切なドラフトモデルを決定するために使用できる分析モデルについて述べる。
既存のドラフトモデルよりも30%高いスループットを提供できるLLaMA-65Bの新しいドラフトモデルを設計する。
論文 参考訳(メタデータ) (2024-02-02T16:15:24Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [72.87402059731225]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Accelerating Large Language Model Decoding with Speculative Sampling [9.851546623666588]
投機的サンプリング(英: Speculative sample)とは、変換器の呼び出し毎に複数のトークンを生成することで、変換器の復号を高速化するアルゴリズムである。
我々は、70億のパラメータ言語モデルであるChinchillaを用いて投機的サンプリングをベンチマークし、分散セットアップで2-2.5倍のデコード速度を達成する。
論文 参考訳(メタデータ) (2023-02-02T18:44:11Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。