Fugu-MT 論文翻訳(概要): Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

論文の概要: Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

arxiv url: http://arxiv.org/abs/2310.17157v1
Date: Thu, 26 Oct 2023 05:01:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 22:02:12.210939
Title: Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time
Title（参考訳）: Deja Vu: 推論時の効率的なLLMのためのコンテキストスポーザリティ
Authors: Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen
Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
参考スコア（独自算出の注目度）: 90.96447932006822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) with hundreds of billions of parameters have sparked a new wave of exciting AI applications. However, they are computationally expensive at inference time. Sparsity is a natural approach to reduce this cost, but existing methods either require costly retraining, have to forgo LLM's in-context learning ability, or do not yield wall-clock time speedup on modern hardware. We hypothesize that contextual sparsity, which are small, input-dependent sets of attention heads and MLP parameters that yield approximately the same output as the dense model for a given input, can address these issues. We show that contextual sparsity exists, that it can be accurately predicted, and that we can exploit it to speed up LLM inference in wall-clock time without compromising LLM's quality or in-context learning ability. Based on these insights, we propose DejaVu, a system that uses a low-cost algorithm to predict contextual sparsity on the fly given inputs to each layer, along with an asynchronous and hardware-aware implementation that speeds up LLM inference. We validate that DejaVu can reduce the inference latency of OPT-175B by over 2X compared to the state-of-the-art FasterTransformer, and over 6X compared to the widely used Hugging Face implementation, without compromising model quality. The code is available at https://github.com/FMInference/DejaVu.
Abstract（参考訳）: 数十億のパラメータを持つ大規模言語モデル(LLM)が、新たなエキサイティングなAIアプリケーションを生み出した。しかし、計算コストは計算時間では高い。 sparsityはコスト削減のための自然なアプローチだが、既存の手法では、コストのかかる再トレーニングが必要か、llmのコンテキスト内学習能力を放棄するか、最新のハードウェアでウォールクロック時間のスピードアップを発生させないかのどちらかである。入力依存型アテンションヘッドとMLPパラメータの小さいコンテキスト空間は、与えられた入力の密度モデルとほぼ同じ出力を出力するので、これらの問題に対処できると仮定する。我々は、文脈的スパーシティが存在し、正確な予測が可能であり、それを利用して、llmの品質や文脈内学習能力を損なうことなく、壁時計時間におけるllm推論を高速化できることを示した。これらの知見に基づいて,各レイヤに入力されたフライの文脈スパーシティを,llm推論を高速化する非同期・ハードウェア対応実装とともに,低コストアルゴリズムを用いて予測するシステムdejavuを提案する。 DejaVuは、最先端の Faster Transformer と比較して OPT-175B の推論遅延を 2 倍に減らし、モデル品質を損なうことなく、広く使われている Hugging Face の実装に比べて 6 倍以上削減できることを確認した。コードはhttps://github.com/FMInference/DejaVu.comで入手できる。

関連論文リスト

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity [52.88892280536302]
SparseLoRAは,コンテキスト空間の空間的分散によって微調整を高速化する手法である。 SparseLoRAは計算コストを最大2.2倍、測定速度を最大1.6倍に削減する。
論文参考訳（メタデータ） (2025-06-19T17:53:34Z)
Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity [4.24164487223914]
我々はPolar Sparsityを導入し、バッチサイズとシーケンスの長さをスケールするときに、高密度からアテンション層への空間的重要度の重要なシフトを強調します。我々は, OPT, LLaMA-2 & 3 などのモデルに対して, 様々なバッチサイズおよびシーケンス長に対して最大 (2.2 時間) のエンドツーエンド速度を, 精度を損なうことなく実現し, ハードウェア効率が高く, 分散性に配慮したカーネルを開発した。
論文参考訳（メタデータ） (2025-05-20T20:15:42Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Online Scheduling for LLM Inference with KV Cache Constraints [22.155429544207827]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。 KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える新しいスケジューリングアルゴリズムを提案する。我々の成果は、より持続的で費用対効果の高いLLMデプロイメントへの道筋を提供する。
論文参考訳（メタデータ） (2025-02-10T23:11:44Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文参考訳（メタデータ） (2024-10-14T17:38:41Z)
Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳（メタデータ） (2024-10-12T09:21:45Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。 ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文参考訳（メタデータ） (2024-06-24T13:41:08Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文参考訳（メタデータ） (2023-11-14T18:57:15Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。 MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文参考訳（メタデータ） (2023-10-10T18:28:38Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。