論文の概要: EnergonAI: An Inference System for 10-100 Billion Parameter Transformer
Models
- arxiv url: http://arxiv.org/abs/2209.02341v1
- Date: Tue, 6 Sep 2022 10:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 15:33:12.327057
- Title: EnergonAI: An Inference System for 10-100 Billion Parameter Transformer
Models
- Title(参考訳): energonai:10~100億のパラメータトランスフォーマーモデルの推論システム
- Authors: Jiangsu Du and Ziming Liu and Jiarui Fang and Shenggui Li and Yongbin
Li and Yutong Lu and Yang You
- Abstract要約: 我々は,10~1000億のパラメータトランスモデルの効率的な展開の課題を解決するために,EnergonAIを提案する。
EgonAIは階層制御システムアーキテクチャを採用し、複数のデバイスをコーディネートし、異なる並列パターンを効率的にサポートする。
FasterTransformerと比較すると、EnergonAIはレイテンシとスループットにおいて優れたパフォーマンスがあることが証明されています。
- 参考スコア(独自算出の注目度): 17.62360528651639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large transformer models display promising performance on a wide range of
natural language processing (NLP) tasks. Although the AI community has expanded
the model scale to the trillion parameter level, the practical deployment of
10-100 billion parameter models is still uncertain due to the latency,
throughput, and memory constraints.
In this paper, we proposed EnergonAI to solve the challenges of the efficient
deployment of 10-100 billion parameter transformer models on single- or
multi-GPU systems. EnergonAI adopts a hierarchy-controller system architecture
to coordinate multiple devices and efficiently support different parallel
patterns. It delegates the execution of sub-models to multiple workers in the
single-controller style and applies tensor parallelism and pipeline parallelism
among the workers in a multi-controller style. Upon the novel architecture, we
propose three techniques, i.e. non-blocking pipeline parallelism, distributed
redundant computation elimination, and peer memory pooling. EnergonAI enables
the users to program complex parallel code the same as a serial one. Compared
with the FasterTransformer, we have proven that EnergonAI has superior
performance on latency and throughput. In our experiments, EnergonAI can
achieve 37% latency reduction in tensor parallelism, 10% scalability
improvement in pipeline parallelism, and it improves the model scale inferred
on a single GPU by using a larger heterogeneous memory space at cost of limited
performance reduction.
- Abstract(参考訳): 大規模なトランスモデルは、幅広い自然言語処理(NLP)タスクで有望なパフォーマンスを示す。
aiコミュニティはモデルスケールを1兆のパラメータレベルにまで拡張したが、レイテンシ、スループット、メモリ制約のため、10~1000億のパラメータモデルの実用的なデプロイはまだ不確かである。
本稿では、単一またはマルチgpuシステムにおける10~100億のパラメータトランスフォーマモデルの効率的な展開の課題を解決するために、energonaiを提案する。
EnergonAIは階層制御システムアーキテクチャを採用し、複数のデバイスをコーディネートし、異なる並列パターンを効率的にサポートする。
サブモデルの実行をシングルコントローラスタイルで複数のワーカーに委譲し、マルチコントローラスタイルでワーカー間でテンソル並列性とパイプライン並列性を適用する。
新たなアーキテクチャでは,ノンブロッキングパイプライン並列性,分散冗長計算除去,ピアメモリプールという3つの手法を提案する。
EnergonAIを使えば、ユーザはシリアルコードと同じ複雑な並列コードをプログラムできる。
FasterTransformerと比較すると、EnergonAIはレイテンシとスループットにおいて優れたパフォーマンスがあることが証明されています。
私たちの実験では、energonaiはテンソル並列性における37%のレイテンシ削減、パイプライン並列性における10%のスケーラビリティ向上を実現でき、性能低下を犠牲にすることなく、より大きなヘテロジニアスメモリ空間を使用することで、単一のgpu上で推定されるモデルスケールを改善しました。
関連論文リスト
- Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文 参考訳(メタデータ) (2024-08-14T20:24:03Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - TurboTransformers: An Efficient GPU Serving System For Transformer
Models [17.4637724940437]
TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。
GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。
メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。
新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
論文 参考訳(メタデータ) (2020-10-09T07:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。