論文の概要: Distributed Speculative Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14105v2
- Date: Fri, 28 Jun 2024 15:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:15:15.114007
- Title: Distributed Speculative Inference of Large Language Models
- Title(参考訳): 大規模言語モデルの分散投機的推測
- Authors: Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel,
- Abstract要約: 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。
本稿では,分散投機推論(DSI)について紹介する。分散投機推論(DSI)は,投機推論(SI)よりも確実に高速な分散推論アルゴリズムである。
ターゲットとドラフトの複数のインスタンスをオーケストレーションすることで、DSIはSIよりも高速なだけでなく、SIで加速できないLLMもサポートする。
- 参考スコア(独自算出の注目度): 11.28378710952036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces distributed speculative inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require a fast and accurate drafter LLM. In practice, off-the-shelf LLMs often do not have matching drafters that are sufficiently fast and accurate. We show a gap: SI gets slower than non-SI when using slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI given any drafters. By orchestrating multiple instances of the target and drafters, DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic settings: DSI is 1.29-1.92x faster than SI.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。
本稿では,分散投機推論 (DSI) と従来の自己回帰推論 (非SI) を比較検討する。
他のSIアルゴリズムと同様に、DSIは凍結したLLMで動作し、トレーニングやアーキテクチャの変更を必要とせず、ターゲットの分布を保存する。
SIに関する以前の研究は、実験的なスピードアップ(非SIと比較して)を実証してきたが、高速で正確なドラフトラダーLSMが必要である。
実際には、既成のLLMは、十分に高速で正確であるような、整合したドラフトラを持っていないことが多い。
SIが非SIよりも遅くなるか、より正確でないドラフトラを使う場合、私たちはギャップを示します。
DSIがSIと非SIの両方よりも高速であることを証明することで、このギャップを埋めます。
ターゲットとドラフトの複数のインスタンスをオーケストレーションすることで、DSIはSIよりも高速なだけでなく、SIで加速できないLLMもサポートする。
DSI は SI よりも 1.29-1.92 倍高速である。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - A physics-informed neural network method for the approximation of slow invariant manifolds for the general class of stiff systems of ODEs [0.0]
我々は、遅い不変多様体(SIM)の発見のための物理インフォームドニューラルネットワーク(PINN)アプローチを提案する。
削減順序のブラックボックスサロゲートモデルを構成する他の機械学習(ML)アプローチとは対照的に,我々のアプローチはベクトル場を高速かつ低速なコンポーネントに分解する。
提案手法は,QSSA,PEA,CSPが提供する手法よりも,同等あるいは高い精度でSIM近似を提供することを示す。
論文 参考訳(メタデータ) (2024-03-18T09:10:39Z) - Addressing the speed-accuracy simulation trade-off for adaptive spiking
neurons [0.0]
本稿では,適応統合火災モデル(ALIF)をアルゴリズム的に再解釈する。
合成ベンチマークで小さなDTを用いて50ドル以上のトレーニングスピードアップを得る。
また、我々のモデルが皮質ニューロンの電気生理学的記録を迅速かつ正確に適合させる方法についても紹介する。
論文 参考訳(メタデータ) (2023-11-19T18:21:45Z) - Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not
Necessary [71.46673478666631]
我々は、無関係な(異種な)マシン上でのオンラインスケジューリングを、高速な環境で検討する。
透かしアルゴリズムと非透かしアルゴリズムでは,強い可視性を示す。
論文 参考訳(メタデータ) (2023-02-02T10:09:23Z) - SWIFT: Rapid Decentralized Federated Learning via Wait-Free Model
Communication [11.763368822546468]
SWIFTはその待ち時間構造のため,実行時間に対してより高速に収束することを示す。
SWIFTは、画像分類、ID、非IIDデータ設定の損失レベルを生成し、既存のSOTAアルゴリズムよりも50%高速である。
論文 参考訳(メタデータ) (2022-10-25T14:01:21Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - An Effective Non-Autoregressive Model for Spoken Language Understanding [15.99246711701726]
本稿では,非自己回帰型音声言語理解モデルであるLayered-Refine Transformerを提案する。
SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。
2つの公開データセットの実験により、我々のモデルはSLU性能を著しく改善し(総合的精度で1.5%)、推論プロセスを大幅に高速化する(10倍以上)。
論文 参考訳(メタデータ) (2021-08-16T10:26:57Z) - Adaptive Transmission Scheduling in Wireless Networks for Asynchronous
Federated Learning [13.490583662839725]
無線学習ネットワーク(WDLN)における非同期フェデレーションラーニング(FL)の研究
Asynchronous Learning-Aware transmission Scheduling (ALS) 問題を定式化し、効果スコアを最大化します。
ALSアルゴリズムによって訓練されたモデルが理想的なベンチマークによってそれに近い性能を達成することをシミュレーションによって示します。
論文 参考訳(メタデータ) (2021-03-02T02:28:20Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。