論文の概要: Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time
- arxiv url: http://arxiv.org/abs/2310.17157v1
- Date: Thu, 26 Oct 2023 05:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:02:12.210939
- Title: Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time
- Title(参考訳): Deja Vu: 推論時の効率的なLLMのためのコンテキストスポーザリティ
- Authors: Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song,
Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen
- Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。
DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
- 参考スコア(独自算出の注目度): 90.96447932006822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with hundreds of billions of parameters have
sparked a new wave of exciting AI applications. However, they are
computationally expensive at inference time. Sparsity is a natural approach to
reduce this cost, but existing methods either require costly retraining, have
to forgo LLM's in-context learning ability, or do not yield wall-clock time
speedup on modern hardware. We hypothesize that contextual sparsity, which are
small, input-dependent sets of attention heads and MLP parameters that yield
approximately the same output as the dense model for a given input, can address
these issues. We show that contextual sparsity exists, that it can be
accurately predicted, and that we can exploit it to speed up LLM inference in
wall-clock time without compromising LLM's quality or in-context learning
ability. Based on these insights, we propose DejaVu, a system that uses a
low-cost algorithm to predict contextual sparsity on the fly given inputs to
each layer, along with an asynchronous and hardware-aware implementation that
speeds up LLM inference. We validate that DejaVu can reduce the inference
latency of OPT-175B by over 2X compared to the state-of-the-art
FasterTransformer, and over 6X compared to the widely used Hugging Face
implementation, without compromising model quality. The code is available at
https://github.com/FMInference/DejaVu.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)が、新たなエキサイティングなAIアプリケーションを生み出した。
しかし、計算コストは計算時間では高い。
sparsityはコスト削減のための自然なアプローチだが、既存の手法では、コストのかかる再トレーニングが必要か、llmのコンテキスト内学習能力を放棄するか、最新のハードウェアでウォールクロック時間のスピードアップを発生させないかのどちらかである。
入力依存型アテンションヘッドとMLPパラメータの小さいコンテキスト空間は、与えられた入力の密度モデルとほぼ同じ出力を出力するので、これらの問題に対処できると仮定する。
我々は、文脈的スパーシティが存在し、正確な予測が可能であり、それを利用して、llmの品質や文脈内学習能力を損なうことなく、壁時計時間におけるllm推論を高速化できることを示した。
これらの知見に基づいて,各レイヤに入力されたフライの文脈スパーシティを,llm推論を高速化する非同期・ハードウェア対応実装とともに,低コストアルゴリズムを用いて予測するシステムdejavuを提案する。
DejaVuは、最先端の Faster Transformer と比較して OPT-175B の推論遅延を 2 倍に減らし、モデル品質を損なうことなく、広く使われている Hugging Face の実装に比べて 6 倍以上削減できることを確認した。
コードはhttps://github.com/FMInference/DejaVu.comで入手できる。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。
本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。
実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:38:41Z) - Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。
蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。
MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文 参考訳(メタデータ) (2023-10-10T18:28:38Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。