論文の概要: PipeFusion: Displaced Patch Pipeline Parallelism for Inference of Diffusion Transformer Models
- arxiv url: http://arxiv.org/abs/2405.14430v2
- Date: Sun, 26 May 2024 04:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:59:12.391567
- Title: PipeFusion: Displaced Patch Pipeline Parallelism for Inference of Diffusion Transformer Models
- Title(参考訳): パイプフュージョン:拡散変圧器モデル推定のための変位パッチパイプライン並列性
- Authors: Jiannan Wang, Jiarui Fang, Aoyu Li, PengCheng Yang,
- Abstract要約: 本稿では,拡散変換器(DiT)モデルを用いた高解像度画像生成手法であるPipeFusionを紹介する。
隣接する拡散ステップからの入力間の高い類似性を活用することで、PipeFusionはパイプラインの待ち時間を排除します。
実験により,既存の DiT 並列手法がOOM を満たす場合の高解像度画像を生成することができることを示した。
- 参考スコア(独自算出の注目度): 11.116433576371515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PipeFusion, a novel approach that harnesses multi-GPU parallelism to address the high computational and latency challenges of generating high-resolution images with diffusion transformers (DiT) models. PipeFusion splits images into patches and distributes the network layers across multiple devices. It employs a pipeline parallel manner to orchestrate communication and computations. By leveraging the high similarity between the input from adjacent diffusion steps, PipeFusion eliminates the waiting time in the pipeline by reusing the one-step stale feature maps to provide context for the current step. Our experiments demonstrate that it can generate higher image resolution where existing DiT parallel approaches meet OOM. PipeFusion significantly reduces the required communication bandwidth, enabling DiT inference to be hosted on GPUs connected via PCIe rather than the more costly NVLink infrastructure, which substantially lowers the overall operational expenses for serving DiT models. Our code is publicly available at https://github.com/PipeFusion/PipeFusion.
- Abstract(参考訳): 本稿では,拡散トランスフォーマ(DiT)モデルを用いた高精細画像の生成において,高精細・高精細・高精細の課題に対処するために,マルチGPU並列処理を利用した新しいアプローチであるPipeFusionを紹介する。
PipeFusionはイメージをパッチに分割し、ネットワーク層を複数のデバイスに分散する。
通信と計算のオーケストレーションには、パイプラインを並列的に使用する。
隣接する拡散ステップからの入力間の高い類似性を活用することで、PipeFusionは、1ステップの古い特徴マップを再利用して現在のステップのコンテキストを提供することにより、パイプラインの待ち時間を排除します。
実験により,既存の DiT 並列手法がOOM を満たす場合の高解像度画像を生成することができることを示した。
パイプフュージョンは必要な通信帯域を大幅に削減し、よりコストのかかるNVLinkインフラではなく、PCIeを介して接続されたGPU上でDiT推論を可能にする。
私たちのコードはhttps://github.com/PipeFusion/PipeFusion.comで公開されています。
関連論文リスト
- Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models [44.384572903945724]
本研究では拡散モデルを用いて高解像度画像を生成する問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
提案手法は,最近の安定拡散XLに品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$timesの高速化を実現している。
論文 参考訳(メタデータ) (2024-02-29T18:59:58Z) - Pipe-BD: Pipelined Parallel Blockwise Distillation [7.367308544773381]
ブロックワイド蒸留のための新しい並列化法であるパイプ-BDを提案する。
パイプ-BDはパイプライン並列性をブロックワイド蒸留に積極的に利用する。
PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。
論文 参考訳(メタデータ) (2023-01-29T13:38:43Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z) - Rethinking Learning-based Demosaicing, Denoising, and Super-Resolution
Pipeline [86.01209981642005]
本研究では,パイプラインが学習ベースDN,DM,SRの混合問題に与える影響について,逐次解とジョイント解の両方で検討する。
我々の提案するパイプラインDN$to$SR$to$DMは、他のシーケンシャルパイプラインよりも一貫してパフォーマンスが向上する。
混合問題に対する最先端の性能を実現するために, エンドツーエンドのトリニティ・カメラ・エンハンスメント・ネットワーク(TENet)を提案する。
論文 参考訳(メタデータ) (2019-05-07T13:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。