論文の概要: Accelerating Speculative Decoding using Dynamic Speculation Length
- arxiv url: http://arxiv.org/abs/2405.04304v1
- Date: Tue, 7 May 2024 13:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:00:34.889159
- Title: Accelerating Speculative Decoding using Dynamic Speculation Length
- Title(参考訳): 動的投機長を用いた投機復号の高速化
- Authors: Jonathan Mamou, Oren Pereg, Daniel Korat, Moshe Berchansky, Nadav Timor, Moshe Wasserblat, Roy Schwartz,
- Abstract要約: 投機的復号化は,大規模言語モデルの推論遅延を低減するための有望な手法である。
提案手法の有効性は投機長 (SL) - 各イテレーションでドラフトモデルによって生成されるトークンの数に依存する。
- 参考スコア(独自算出の注目度): 10.179185745250244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is a promising method for reducing the inference latency of large language models. The effectiveness of the method depends on the speculation length (SL) - the number of tokens generated by the draft model at each iteration. The vast majority of speculative decoding approaches use the same SL for all iterations. In this work, we show that this practice is suboptimal. We introduce DISCO, a DynamIc SpeCulation length Optimization method that uses a classifier to dynamically adjust the SL at each iteration, while provably preserving the decoding quality. Experiments with four benchmarks demonstrate average speedup gains of 10.3% relative to our best baselines.
- Abstract(参考訳): 投機的復号化は,大規模言語モデルの推論遅延を低減するための有望な手法である。
提案手法の有効性は投機長 (SL) - 各イテレーションでドラフトモデルによって生成されるトークンの数に依存する。
投機的復号法の大半は全ての反復に対して同じSLを用いる。
本研究では,この実践が準最適であることを示す。
DisCOはDynamIc SpeCulation長最適化手法であり,各繰り返しのSLを動的に調整し,復号品質を確実に維持する。
4つのベンチマークによる実験では、最高のベースラインと比較して平均スピードアップが10.3%向上した。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - Optimizing Speculative Decoding for Serving Large Language Models Using Goodput [32.479057822334354]
投機的復号化は、大規模言語モデルにおいて最も効果的な手法の1つである。
要求毎に最適な投機期間を決定するための動的フレームワークであるSmartSpecを開発した。
SmartSpecは、非投機的復号化ベースラインに比べて平均要求遅延を最大3.2倍まで減少させる。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - The Synergy of Speculative Decoding and Batching in Serving Large
Language Models [3.3849225405083336]
本稿では,異なるバッチサイズに対して最適な投機長を選択する新しい投機的復号法を提案する。
提案手法は, 提案手法により, 固定された投機長を持つ, 最先端の投機復号方式と同等以上の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-10-28T20:36:36Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - SLPerf: a Unified Framework for Benchmarking Split Learning [23.428182614777032]
分割学習のための統一的な研究フレームワークとオープンな研究ライブラリであるSLPerfを提案する。
IIDと非IIDデータ設定の両方で、広く使われている4つのデータセットについて広範な実験を行った。
コントリビューションには、最近提案されたSLパラダイムの包括的調査、さまざまな状況におけるSLパラダイムの詳細なベンチマーク比較、リッチエンジニアリング・テイクアウトメッセージなどが含まれています。
論文 参考訳(メタデータ) (2023-04-04T03:27:54Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。