論文の概要: PipeFusion: Patch-level Pipeline Parallelism for Diffusion Transformers Inference
- arxiv url: http://arxiv.org/abs/2405.14430v3
- Date: Thu, 31 Oct 2024 05:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:30.143933
- Title: PipeFusion: Patch-level Pipeline Parallelism for Diffusion Transformers Inference
- Title(参考訳): パイプフュージョン:拡散変換器推論のためのパッチレベルのパイプライン並列性
- Authors: Jiarui Fang, Jinzhe Pan, Jiannan Wang, Aoyu Li, Xibo Sun,
- Abstract要約: PipeFusionは、複数のGPUでイメージをパッチとモデルレイヤに分割する。
通信と計算を効率的にオーケストレーションするために、パッチレベルのパイプライン並列戦略を採用している。
- 参考スコア(独自算出の注目度): 5.704297874096985
- License:
- Abstract: This paper presents PipeFusion, an innovative parallel methodology to tackle the high latency issues associated with generating high-resolution images using diffusion transformers (DiTs) models. PipeFusion partitions images into patches and the model layers across multiple GPUs. It employs a patch-level pipeline parallel strategy to orchestrate communication and computation efficiently. By capitalizing on the high similarity between inputs from successive diffusion steps, PipeFusion reuses one-step stale feature maps to provide context for the current pipeline step. This approach notably reduces communication costs compared to existing DiTs inference parallelism, including tensor parallel, sequence parallel and DistriFusion. PipeFusion also exhibits superior memory efficiency, because it can distribute model parameters across multiple devices, making it more suitable for DiTs with large parameter sizes, such as Flux.1. Experimental results demonstrate that PipeFusion achieves state-of-the-art performance on 8xL40 PCIe GPUs for Pixart, Stable-Diffusion 3 and Flux.1 models.Our Source code is available at https://github.com/xdit-project/xDiT.
- Abstract(参考訳): 本稿では,拡散トランスフォーマ(DiT)モデルを用いた高解像度画像の生成に伴う高遅延問題に対処する,革新的な並列手法であるPipeFusionを提案する。
PipeFusionは、複数のGPUでイメージをパッチとモデルレイヤに分割する。
通信と計算を効率的にオーケストレーションするために、パッチレベルのパイプライン並列戦略を採用している。
逐次拡散ステップからの入力間の高い類似性を活用することで、PipeFusionは、現在のパイプラインステップのコンテキストを提供するために、ワンステップのフィーチャーマップを再利用する。
このアプローチは、テンソル並列、シーケンス並列、ディストリフュージョンを含む既存のDiTの推論並列性と比較して通信コストを著しく削減する。
PipeFusionは、複数のデバイスにモデルパラメータを分散できるため、Flux.1のような大きなパラメータサイズを持つDiTに適しているため、メモリ効率も優れている。
実験の結果、PipeFusionはPixart、Stable-Diffusion 3、Flux.1向けの8xL40 PCIe GPUの最先端性能を実現している。
関連論文リスト
- xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism [5.704297874096985]
拡散モデルは高品質の画像やビデオを生成する上で重要な要素である。
本稿では,DiTの総合的並列推論エンジンであるxDiTを紹介する。
特に、Ethernetに接続されたGPUクラスタ上でDiTsのスケーラビリティを最初に示すのは、私たちです。
論文 参考訳(メタデータ) (2024-11-04T01:40:38Z) - BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models [44.384572903945724]
本研究では拡散モデルを用いて高解像度画像を生成する問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
提案手法は,最近の安定拡散XLに品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$timesの高速化を実現している。
論文 参考訳(メタデータ) (2024-02-29T18:59:58Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and
Scene Flow Estimation [15.98323974821097]
同期した2Dデータと3Dデータから光フローとシーンフローを同時推定する問題について検討する。
そこで本研究では,CamLiFlowと呼ばれる新しいエンドツーエンドフレームワークを提案する。
提案手法は,KITTI Scene Flowベンチマークで1位であり,従来の1/7パラメータよりも優れていた。
論文 参考訳(メタデータ) (2021-11-20T02:58:38Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。