論文の概要: Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.04304v5
- Date: Thu, 07 Nov 2024 12:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:31.502097
- Title: Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models
- Title(参考訳): 動的投機的ルックアヘッドは大規模言語モデルの投機的復号を高速化する
- Authors: Jonathan Mamou, Oren Pereg, Daniel Korat, Moshe Berchansky, Nadav Timor, Moshe Wasserblat, Roy Schwartz,
- Abstract要約: DISCOは投機的ルックアヘッド(SL)を動的に選択する新しい手法である。
4つのデータセットによる実験により、disCOは最高の静的SLベースラインに比べて平均10%のスピードアップに達することが示された。
- 参考スコア(独自算出の注目度): 10.179185745250244
- License:
- Abstract: Speculative decoding is commonly used for reducing the inference latency of large language models. Its effectiveness depends highly on the speculation lookahead (SL)-the number of tokens generated by the draft model at each iteration. In this work we show that the common practice of using the same SL for all iterations (static SL) is suboptimal. We introduce DISCO (DynamIc SpeCulation lookahead Optimization), a novel method for dynamically selecting the SL. Our experiments with four datasets show that DISCO reaches an average speedup of 10% compared to the best static SL baseline, while generating the exact same text.
- Abstract(参考訳): 投機的復号化は、大きな言語モデルの推論遅延を低減するために一般的に用いられる。
その有効性は、投機的なルックアヘッド(SL)、すなわち各イテレーションでドラフトモデルによって生成されるトークンの数に大きく依存します。
この研究において、全ての反復(静的SL)に対して同じSLを使用するという一般的な実践は、最適以下であることを示す。
DISCO(DynamIc SpeCulation lookahead Optimization, DynamIc SpeCulation lookahead Optimization)は,SLを動的に選択する新しい手法である。
4つのデータセットによる実験の結果,disCO は最高の静的 SL ベースラインに比べて平均 10% の高速化を実現し,全く同じテキストを生成することがわかった。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - Optimizing Speculative Decoding for Serving Large Language Models Using Goodput [32.479057822334354]
投機的復号化は、大規模言語モデルにおいて最も効果的な手法の1つである。
要求毎に最適な投機期間を決定するための動的フレームワークであるSmartSpecを開発した。
SmartSpecは、非投機的復号化ベースラインに比べて平均要求遅延を最大3.2倍まで減少させる。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - The Synergy of Speculative Decoding and Batching in Serving Large
Language Models [3.3849225405083336]
本稿では,異なるバッチサイズに対して最適な投機長を選択する新しい投機的復号法を提案する。
提案手法は, 提案手法により, 固定された投機長を持つ, 最先端の投機復号方式と同等以上の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-10-28T20:36:36Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - SLPerf: a Unified Framework for Benchmarking Split Learning [23.428182614777032]
分割学習のための統一的な研究フレームワークとオープンな研究ライブラリであるSLPerfを提案する。
IIDと非IIDデータ設定の両方で、広く使われている4つのデータセットについて広範な実験を行った。
コントリビューションには、最近提案されたSLパラダイムの包括的調査、さまざまな状況におけるSLパラダイムの詳細なベンチマーク比較、リッチエンジニアリング・テイクアウトメッセージなどが含まれています。
論文 参考訳(メタデータ) (2023-04-04T03:27:54Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。