論文の概要: Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference
- arxiv url: http://arxiv.org/abs/2408.07802v1
- Date: Wed, 14 Aug 2024 20:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:38:42.363071
- Title: Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference
- Title(参考訳): Kraken: 効率的なマルチデバイス推論のための並列トランスフォーマー
- Authors: Rohan Baskar Prabhakar, Hengrui Zhang, David Wentlzaff,
- Abstract要約: Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
- 参考スコア(独自算出の注目度): 5.630673423890653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer networks are increasingly used in settings where low inference latency can improve the end-user experience and enable new applications. However, autoregressive inference is resource intensive and requires parallelism for efficiency. Parallelism introduces collective communication that is both expensive and represents a phase when hardware resources are underutilized. Towards mitigating this, Kraken is an evolution of the standard Transformer architecture that is designed to complement existing tensor parallelism schemes for efficient inference on multi-device systems. By introducing a fixed degree of intra-layer model parallelism, the architecture allows collective operations to be overlapped with compute, decreasing latency and increasing hardware utilization. When trained on OpenWebText, Kraken models reach a similar perplexity as standard Transformers while also preserving their language modeling capabilities when evaluated on the SuperGLUE benchmark. Importantly, when tested on multi-GPU systems using TensorRT-LLM engines, Kraken speeds up Time To First Token by a mean of 35.6% across a range of model sizes, context lengths, and degrees of tensor parallelism.
- Abstract(参考訳): 大規模なTransformerネットワークは、低推論レイテンシがエンドユーザエクスペリエンスを改善し、新しいアプリケーションを可能にするような設定で、ますます利用されている。
しかし、自己回帰推論は資源集約的であり、効率のために並列性を必要とする。
並列通信は高価であり、ハードウェアリソースが未使用のフェーズを表す。
これを軽減するため、クラケンはマルチデバイスシステムにおける効率的な推論のために既存のテンソル並列化スキームを補完するために設計された標準トランスフォーマーアーキテクチャの進化である。
一定の層内モデル並列性を導入することで、計算処理と重なり合うようにし、レイテンシを低減し、ハードウェア利用を増大させることができる。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達し、SuperGLUEベンチマークで評価すると言語モデリング能力も維持される。
重要なのは、TensorRT-LLMエンジンを使用したマルチGPUシステムでのテストにおいて、Krakenはモデルサイズ、コンテキスト長、テンソル並列性の度合いを平均35.6%高速化する。
関連論文リスト
- Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference [3.005912820808423]
自己回帰モデル上の推論は、現在のトークンの確率分布が前のトークンに条件付けられている時間依存性を利用する。
並列に複数のリクエストを効率的に推測するための時間融合フレームワークであるFloverを提案する。
トークンレベルの並列性のオーケストレーションによって、Floverはハードウェアの最適効率を示し、システムリソースを著しく節約する。
論文 参考訳(メタデータ) (2023-05-22T20:58:09Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - EnergonAI: An Inference System for 10-100 Billion Parameter Transformer
Models [17.62360528651639]
我々は,10~1000億のパラメータトランスモデルの効率的な展開の課題を解決するために,EnergonAIを提案する。
EgonAIは階層制御システムアーキテクチャを採用し、複数のデバイスをコーディネートし、異なる並列パターンを効率的にサポートする。
FasterTransformerと比較すると、EnergonAIはレイテンシとスループットにおいて優れたパフォーマンスがあることが証明されています。
論文 参考訳(メタデータ) (2022-09-06T10:02:58Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。