論文の概要: TP-Aware Dequantization
- arxiv url: http://arxiv.org/abs/2402.04925v1
- Date: Mon, 15 Jan 2024 08:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:14:29.631641
- Title: TP-Aware Dequantization
- Title(参考訳): tpアウェア脱量子化
- Authors: Adnan Hoque, Mudhakar Srivatsa, Chih-Chieh Yang, Raghu Ganti
- Abstract要約: 大規模言語モデル(LLM)の分散配置におけるモデル推論遅延を低減する新しい手法を提案する。
私たちのコントリビューションは、Parallel(TP)と組み合わせて使用する場合、最先端量子化カーネルの現在の制限に対処する最適化された推論デプロイメントスキームです。
我々は、IBM WatsonXのA100およびH100 NVIDIA DGX Systems上のGranite-20B問題に対して、Llama-70Bの既存のメソッドの最大1.81倍の高速化と、最大1.78倍の高速化を示す。
- 参考スコア(独自算出の注目度): 0.49157446832511503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel method that reduces model inference latency
during distributed deployment of Large Language Models (LLMs). Our contribution
is an optimized inference deployment scheme that address the current
limitations of state-of-the-art quantization kernels when used in conjunction
with Tensor Parallel (TP). Our method preserves data locality in GPU memory
access patterns and exploits a priori knowledge of TP to reduce global
communication. We demonstrate an up to 1.81x speedup over existing methods for
Llama-70B and up to 1.78x speedup for IBM WatsonX's Granite-20B MLP layer
problem sizes on A100 and H100 NVIDIA DGX Systems for a variety of TP settings.
- Abstract(参考訳): 本稿では,大規模言語モデル(llms)の分散配置時のモデル推論遅延を削減する新しい手法を提案する。
我々のコントリビューションは、Tensor Parallel(TP)と組み合わせて使用する場合、最先端量子化カーネルの現在の制限に対処する最適化された推論デプロイメントスキームである。
提案手法は,GPUメモリアクセスパターンにおけるデータの局所性を保存し,TPの事前知識を利用してグローバル通信を削減する。
我々は、Llama-70Bの既存のメソッドを最大1.81倍高速化し、様々なTP設定のためにA100およびH100 NVIDIA DGX Systems上でIBM WatsonXのGranite-20B MLP層の問題サイズを最大1.78倍高速化した。
関連論文リスト
- EBFT: Effective and Block-Wise Fine-Tuning for Sparse LLMs [68.41135269685576]
スパースLLMを微調整する既存の方法は、しばしば資源集約的な要求と高い再訓練コストに悩まされる。
再構成誤差の最小化に基づくスパルスLLMの微調整のための効率的かつ高速なフレームワークを提案する。
提案手法では, キャリブレーションのための小さなデータセットをサンプリングし, バックプロパゲーションを利用してブロックワイズ復元誤差を反復的に最適化する。
論文 参考訳(メタデータ) (2024-02-19T09:55:32Z) - QUICK: Quantization-aware Interleaving and Conflict-free Kernel for
efficient LLM inference [9.031180368026071]
QUICKは、最先端の混合精度行列乗算カーネルの共有メモリバンク競合問題に対処する。
我々は、多くのNVIDIA GPUデバイス上で、AutoAWQの既存のカーネルを最大1.91倍のスピードアップし、代表LLMモデルの最大1.94倍のスループットを示す。
論文 参考訳(メタデータ) (2024-02-15T16:38:41Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - A Real Time 1280x720 Object Detection Chip With 585MB/s Memory Traffic [1.553339756999288]
本稿では,ハードウェアとソフトウェアを併用した低メモリトラフィックDLAチップを提案する。
メモリ帯域幅のハードウェア利用を最大化するために,オブジェクト検出モデルをグループ融合対応モデルに変形・融合する。
これにより、YOLOv2のメモリトラフィックは2.9GB/sから0.15GB/sに削減される。
論文 参考訳(メタデータ) (2022-05-02T09:58:39Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Accelerating Markov Random Field Inference with Uncertainty
Quantification [10.825800519362579]
確率的アルゴリズムは従来のプロセッサでは計算コストがかかります
それらの統計的性質、すなわち解釈可能性と不確実量化(UQ)は、魅力的な代替手法である。
マルコフ確率場(MRF)推論のための高スループット加速器を提案する。
また、UQを効率的にサポートするための新しいハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。
論文 参考訳(メタデータ) (2021-08-02T00:02:53Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - LCP: A Low-Communication Parallelization Method for Fast Neural Network
Inference in Image Recognition [33.581285906182075]
そこで本研究では, ほぼ独立な複数の枝と狭い枝からなるモデルを用いた低通信並列化手法を提案する。
当社では,AWSインスタンス,Raspberry Pi,PYNQボードという,3つの分散システムにLCPモデルをデプロイしています。
LCPモデルは、オリジナルのモデルと比べて56倍と7倍の平均的なスピードアップを達成し、平均的なスピードアップを33倍に改善することができた。
論文 参考訳(メタデータ) (2020-03-13T19:52:44Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。