論文の概要: DeepSpeed Inference: Enabling Efficient Inference of Transformer Models
at Unprecedented Scale
- arxiv url: http://arxiv.org/abs/2207.00032v1
- Date: Thu, 30 Jun 2022 18:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 14:51:37.861541
- Title: DeepSpeed Inference: Enabling Efficient Inference of Transformer Models
at Unprecedented Scale
- Title(参考訳): ディープスピード推論:非先行スケールでのトランスフォーマーモデルの効率的な推論を実現する
- Authors: Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad
Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji
Ruwase, Yuxiong He
- Abstract要約: DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。
レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。
GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
- 参考スコア(独自算出の注目度): 20.558091867632445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past several years have witnessed the success of transformer-based
models, and their scale and application scenarios continue to grow
aggressively. The current landscape of transformer models is increasingly
diverse: the model size varies drastically with the largest being of
hundred-billion parameters; the model characteristics differ due to the
sparsity introduced by the Mixture-of-Experts; the target application scenarios
can be latency-critical or throughput-oriented; the deployment hardware could
be single- or multi-GPU systems with different types of memory and storage,
etc. With such increasing diversity and the fast-evolving pace of transformer
models, designing a highly performant and efficient inference system is
extremely challenging. In this paper, we present DeepSpeed Inference, a
comprehensive system solution for transformer model inference to address the
above-mentioned challenges. DeepSpeed Inference consists of (1) a multi-GPU
inference solution to minimize latency while maximizing the throughput of both
dense and sparse transformer models when they fit in aggregate GPU memory, and
(2) a heterogeneous inference solution that leverages CPU and NVMe memory in
addition to the GPU memory and compute to enable high inference throughput with
large models which do not fit in aggregate GPU memory. DeepSpeed Inference
reduces latency by up to 7.3X over the state-of-the-art for latency-oriented
scenarios and increases throughput by over 1.5x for throughput-oriented
scenarios. Moreover, it enables trillion parameter scale inference under
real-time latency constraints by leveraging hundreds of GPUs, an unprecedented
scale for inference. It can inference 25x larger models than with GPU-only
solutions, while delivering a high throughput of 84 TFLOPS (over $50\%$ of
A6000 peak).
- Abstract(参考訳): 過去数年間、トランスフォーマーベースのモデルの成功を目撃し、その規模とアプリケーションシナリオは積極的に成長を続けている。
現在のトランスフォーマーモデルの状況は様々で、モデルのサイズは100億のパラメータで大きく異なり、モデルの特徴はMixture-of-Expertsによって導入されたスパーシ性によって異なり、ターゲットのアプリケーションシナリオはレイテンシクリティカルまたはスループット指向になり、デプロイメントハードウェアは、メモリとストレージの異なるシングルまたはマルチGPUシステムである可能性がある。
このような多様性の増大とトランスモデルの急速な進化により、高性能で効率的な推論システムを設計することは極めて困難である。
本稿では,上述の課題に対処するため,トランスフォーマーモデル推論のための包括的システムソリューションであるDeepSpeed Inferenceを提案する。
DeepSpeed Inferenceは、(1)GPUメモリに収まるときの高密度およびスパーストランスフォーマーモデルのスループットを最大化しつつ、レイテンシを最小限に抑えるマルチGPU推論ソリューションと、(2)GPUメモリに加えてCPUとNVMeメモリを活用する異種推論ソリューションとからなり、GPUメモリに収まらない大規模なモデルで高い推論スループットを実現する。
DeepSpeed Inferenceは、レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。
さらに、数百のGPUを活用することで、リアルタイムレイテンシ制約下でのパラメータスケールの推測を可能にする。
GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50\%以上)を提供する。
関連論文リスト
- Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。
提案手法は,与えられた計算予算内で,最先端の推論速度とモデル性能を実現する。
論文 参考訳(メタデータ) (2024-11-19T09:24:34Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices [19.96064012736243]
本稿では,メモリ効率の高いパイプライン実行機構であるPIPELOADを紹介する。
動的メモリ管理を取り入れることでメモリ使用量を削減し、推論遅延を最小限にする。
本稿では,エッジデバイス上での大規模モデル推論に最適化されたフレームワークであるHermesを紹介する。
論文 参考訳(メタデータ) (2024-09-06T12:55:49Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。
同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。