論文の概要: Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time
- arxiv url: http://arxiv.org/abs/2310.17157v1
- Date: Thu, 26 Oct 2023 05:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:02:12.210939
- Title: Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time
- Title(参考訳): Deja Vu: 推論時の効率的なLLMのためのコンテキストスポーザリティ
- Authors: Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song,
Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen
- Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。
DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
- 参考スコア(独自算出の注目度): 90.96447932006822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with hundreds of billions of parameters have
sparked a new wave of exciting AI applications. However, they are
computationally expensive at inference time. Sparsity is a natural approach to
reduce this cost, but existing methods either require costly retraining, have
to forgo LLM's in-context learning ability, or do not yield wall-clock time
speedup on modern hardware. We hypothesize that contextual sparsity, which are
small, input-dependent sets of attention heads and MLP parameters that yield
approximately the same output as the dense model for a given input, can address
these issues. We show that contextual sparsity exists, that it can be
accurately predicted, and that we can exploit it to speed up LLM inference in
wall-clock time without compromising LLM's quality or in-context learning
ability. Based on these insights, we propose DejaVu, a system that uses a
low-cost algorithm to predict contextual sparsity on the fly given inputs to
each layer, along with an asynchronous and hardware-aware implementation that
speeds up LLM inference. We validate that DejaVu can reduce the inference
latency of OPT-175B by over 2X compared to the state-of-the-art
FasterTransformer, and over 6X compared to the widely used Hugging Face
implementation, without compromising model quality. The code is available at
https://github.com/FMInference/DejaVu.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)が、新たなエキサイティングなAIアプリケーションを生み出した。
しかし、計算コストは計算時間では高い。
sparsityはコスト削減のための自然なアプローチだが、既存の手法では、コストのかかる再トレーニングが必要か、llmのコンテキスト内学習能力を放棄するか、最新のハードウェアでウォールクロック時間のスピードアップを発生させないかのどちらかである。
入力依存型アテンションヘッドとMLPパラメータの小さいコンテキスト空間は、与えられた入力の密度モデルとほぼ同じ出力を出力するので、これらの問題に対処できると仮定する。
我々は、文脈的スパーシティが存在し、正確な予測が可能であり、それを利用して、llmの品質や文脈内学習能力を損なうことなく、壁時計時間におけるllm推論を高速化できることを示した。
これらの知見に基づいて,各レイヤに入力されたフライの文脈スパーシティを,llm推論を高速化する非同期・ハードウェア対応実装とともに,低コストアルゴリズムを用いて予測するシステムdejavuを提案する。
DejaVuは、最先端の Faster Transformer と比較して OPT-175B の推論遅延を 2 倍に減らし、モデル品質を損なうことなく、広く使われている Hugging Face の実装に比べて 6 倍以上削減できることを確認した。
コードはhttps://github.com/FMInference/DejaVu.comで入手できる。
関連論文リスト
- An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference
Acceleration for Large Vision-Language Models [68.65691483168466]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Not all Layers of LLMs are Necessary during Inference [71.47726067940539]
LLM(Large Language Models)の理想的な推論段階は、その能力を維持しながら少ない計算資源を利用できる。
本稿では,AdaInfer という単純なアルゴリズムを用いて,入力インスタンスを適応的に推定する手法を提案する。
実験によると、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを削減し、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Generation Meets Verification: Accelerating Large Language Model
Inference with Smart Parallel Auto-Correct Decoding [12.538348206151424]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。
蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。
MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文 参考訳(メタデータ) (2023-10-10T18:28:38Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。