Fugu-MT 論文翻訳(概要): EnergonAI: An Inference System for 10-100 Billion Parameter Transformer Models

論文の概要: EnergonAI: An Inference System for 10-100 Billion Parameter Transformer Models

arxiv url: http://arxiv.org/abs/2209.02341v1
Date: Tue, 6 Sep 2022 10:02:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-07 15:33:12.327057
Title: EnergonAI: An Inference System for 10-100 Billion Parameter Transformer Models
Title（参考訳）: energonai:10～100億のパラメータトランスフォーマーモデルの推論システム
Authors: Jiangsu Du and Ziming Liu and Jiarui Fang and Shenggui Li and Yongbin Li and Yutong Lu and Yang You
Abstract要約: 我々は,10～1000億のパラメータトランスモデルの効率的な展開の課題を解決するために,EnergonAIを提案する。 EgonAIは階層制御システムアーキテクチャを採用し、複数のデバイスをコーディネートし、異なる並列パターンを効率的にサポートする。 FasterTransformerと比較すると、EnergonAIはレイテンシとスループットにおいて優れたパフォーマンスがあることが証明されています。
参考スコア（独自算出の注目度）: 17.62360528651639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large transformer models display promising performance on a wide range of natural language processing (NLP) tasks. Although the AI community has expanded the model scale to the trillion parameter level, the practical deployment of 10-100 billion parameter models is still uncertain due to the latency, throughput, and memory constraints. In this paper, we proposed EnergonAI to solve the challenges of the efficient deployment of 10-100 billion parameter transformer models on single- or multi-GPU systems. EnergonAI adopts a hierarchy-controller system architecture to coordinate multiple devices and efficiently support different parallel patterns. It delegates the execution of sub-models to multiple workers in the single-controller style and applies tensor parallelism and pipeline parallelism among the workers in a multi-controller style. Upon the novel architecture, we propose three techniques, i.e. non-blocking pipeline parallelism, distributed redundant computation elimination, and peer memory pooling. EnergonAI enables the users to program complex parallel code the same as a serial one. Compared with the FasterTransformer, we have proven that EnergonAI has superior performance on latency and throughput. In our experiments, EnergonAI can achieve 37% latency reduction in tensor parallelism, 10% scalability improvement in pipeline parallelism, and it improves the model scale inferred on a single GPU by using a larger heterogeneous memory space at cost of limited performance reduction.
Abstract（参考訳）: 大規模なトランスモデルは、幅広い自然言語処理(NLP)タスクで有望なパフォーマンスを示す。 aiコミュニティはモデルスケールを1兆のパラメータレベルにまで拡張したが、レイテンシ、スループット、メモリ制約のため、10～1000億のパラメータモデルの実用的なデプロイはまだ不確かである。本稿では、単一またはマルチgpuシステムにおける10～100億のパラメータトランスフォーマモデルの効率的な展開の課題を解決するために、energonaiを提案する。 EnergonAIは階層制御システムアーキテクチャを採用し、複数のデバイスをコーディネートし、異なる並列パターンを効率的にサポートする。サブモデルの実行をシングルコントローラスタイルで複数のワーカーに委譲し、マルチコントローラスタイルでワーカー間でテンソル並列性とパイプライン並列性を適用する。新たなアーキテクチャでは,ノンブロッキングパイプライン並列性,分散冗長計算除去,ピアメモリプールという3つの手法を提案する。 EnergonAIを使えば、ユーザはシリアルコードと同じ複雑な並列コードをプログラムできる。 FasterTransformerと比較すると、EnergonAIはレイテンシとスループットにおいて優れたパフォーマンスがあることが証明されています。私たちの実験では、energonaiはテンソル並列性における37%のレイテンシ削減、パイプライン並列性における10%のスケーラビリティ向上を実現でき、性能低下を犠牲にすることなく、より大きなヘテロジニアスメモリ空間を使用することで、単一のgpu上で推定されるモデルスケールを改善しました。

関連論文リスト

Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。 OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。 SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文参考訳（メタデータ） (2024-08-14T20:24:03Z)
Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文参考訳（メタデータ） (2023-11-07T23:18:35Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。出力トークンの数を正確に予測し、隠れた変数を抽出する。 10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-06-16T17:24:14Z)
Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文参考訳（メタデータ） (2021-07-18T09:05:16Z)
Easy and Efficient Transformer : Scalable Inference Solution For large NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。 EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文参考訳（メタデータ） (2021-04-26T11:00:56Z)
Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文参考訳（メタデータ） (2021-04-09T16:43:11Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
TurboTransformers: An Efficient GPU Serving System For Transformer Models [17.4637724940437]
TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。 GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
論文参考訳（メタデータ） (2020-10-09T07:28:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。