論文の概要: Distributed Speculative Inference of Large Language Models is Provably Faster
- arxiv url: http://arxiv.org/abs/2405.14105v3
- Date: Sun, 8 Sep 2024 17:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:21:54.491655
- Title: Distributed Speculative Inference of Large Language Models is Provably Faster
- Title(参考訳): 大規模言語モデルの分散投機推論は、おそらくより高速である
- Authors: Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel,
- Abstract要約: 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。
本稿では、投機推論(SI)や従来の自己回帰推論(非SI)よりも確実に高速な分散推論アルゴリズムである分散推論(DSI)を紹介する。
DSI が SI よりも 1.29-1.92 倍速い現実的な単一ノード設定において,本シミュレーションは既製の LLM の高速化を示す。
- 参考スコア(独自算出の注目度): 11.28378710952036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces Distributed Speculative Inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast,chen2023accelerating,miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require fast and accurate drafters, which are often unavailable in practice. We identify a gap where SI can be slower than non-SI given slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI--given any drafters. DSI introduces a novel type of task parallelism called Speculation Parallelism (SP), which orchestrates target and drafter instances to overlap in time, creating a new foundational tradeoff between computational resources and latency. DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic single-node settings where DSI is 1.29-1.92x faster than SI.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。
本稿では,分散投機推論(DSI)を提案する。分散投機推論(DSI)は,投機推論(SI) [leviathan2023fast,chen2023accelerating,miao2023specinfer] や従来の自己回帰推論(非SI)よりも確実に高速な分散推論アルゴリズムである。
他のSIアルゴリズムと同様に、DSIは凍結したLLMで動作し、トレーニングやアーキテクチャの変更を必要とせず、ターゲットの分布を保存する。
SIに関する以前の研究は、実証的なスピードアップ(非SIと比較して)を実証してきたが、高速で正確なドラフト作成が必要であり、実際は利用できないことが多い。
我々は、SIが非SIよりも遅くなり得るギャップを、より遅く、より正確でない草案作成者によって特定する。
DSIがSIと非SIの両方よりも高速であることを証明することで、このギャップを埋めます。
DSIはSP(Speculation Parallelism)と呼ばれる新しいタイプのタスク並列処理を導入し、ターゲットインスタンスとドラフトインスタンスを時間的に重複させ、計算リソースとレイテンシーの間に新たな基本的なトレードオフを生み出す。
DSI は SI よりも高速であるだけでなく、SI で加速できない LLM もサポートしている。
DSI が SI よりも 1.29-1.92 倍速い現実的な単一ノード設定において,本シミュレーションは既製の LLM の高速化を示す。
関連論文リスト
- Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - A physics-informed neural network method for the approximation of slow invariant manifolds for the general class of stiff systems of ODEs [0.0]
我々は、遅い不変多様体(SIM)の発見のための物理インフォームドニューラルネットワーク(PINN)アプローチを提案する。
削減順序のブラックボックスサロゲートモデルを構成する他の機械学習(ML)アプローチとは対照的に,我々のアプローチはベクトル場を高速かつ低速なコンポーネントに分解する。
提案手法は,QSSA,PEA,CSPが提供する手法よりも,同等あるいは高い精度でSIM近似を提供することを示す。
論文 参考訳(メタデータ) (2024-03-18T09:10:39Z) - Addressing the speed-accuracy simulation trade-off for adaptive spiking
neurons [0.0]
本稿では,適応統合火災モデル(ALIF)をアルゴリズム的に再解釈する。
合成ベンチマークで小さなDTを用いて50ドル以上のトレーニングスピードアップを得る。
また、我々のモデルが皮質ニューロンの電気生理学的記録を迅速かつ正確に適合させる方法についても紹介する。
論文 参考訳(メタデータ) (2023-11-19T18:21:45Z) - Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [90.96447932006822]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。
DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文 参考訳(メタデータ) (2023-10-26T05:01:09Z) - Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not
Necessary [71.46673478666631]
我々は、無関係な(異種な)マシン上でのオンラインスケジューリングを、高速な環境で検討する。
透かしアルゴリズムと非透かしアルゴリズムでは,強い可視性を示す。
論文 参考訳(メタデータ) (2023-02-02T10:09:23Z) - SWIFT: Rapid Decentralized Federated Learning via Wait-Free Model
Communication [11.763368822546468]
SWIFTはその待ち時間構造のため,実行時間に対してより高速に収束することを示す。
SWIFTは、画像分類、ID、非IIDデータ設定の損失レベルを生成し、既存のSOTAアルゴリズムよりも50%高速である。
論文 参考訳(メタデータ) (2022-10-25T14:01:21Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - An Effective Non-Autoregressive Model for Spoken Language Understanding [15.99246711701726]
本稿では,非自己回帰型音声言語理解モデルであるLayered-Refine Transformerを提案する。
SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。
2つの公開データセットの実験により、我々のモデルはSLU性能を著しく改善し(総合的精度で1.5%)、推論プロセスを大幅に高速化する(10倍以上)。
論文 参考訳(メタデータ) (2021-08-16T10:26:57Z) - Adaptive Transmission Scheduling in Wireless Networks for Asynchronous
Federated Learning [13.490583662839725]
無線学習ネットワーク(WDLN)における非同期フェデレーションラーニング(FL)の研究
Asynchronous Learning-Aware transmission Scheduling (ALS) 問題を定式化し、効果スコアを最大化します。
ALSアルゴリズムによって訓練されたモデルが理想的なベンチマークによってそれに近い性能を達成することをシミュレーションによって示します。
論文 参考訳(メタデータ) (2021-03-02T02:28:20Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。