論文の概要: Accelerating Parallel Diffusion Model Serving with Residual Compression
- arxiv url: http://arxiv.org/abs/2507.17511v1
- Date: Wed, 23 Jul 2025 13:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.020069
- Title: Accelerating Parallel Diffusion Model Serving with Residual Compression
- Title(参考訳): 残差圧縮を伴う並列拡散モデルの高速化
- Authors: Jiajun Luo, Yicheng Xiao, Jianru Xu, Yangxiu You, Rongwei Lu, Chen Tang, Jingyan Jiang, Zhi Wang,
- Abstract要約: 拡散モデルは現実的な画像やビデオを生成するが、かなりの計算資源を必要とする。
パラレル推論は、デバイス間で大きなアクティベーションを交換する際の通信オーバーヘッドを大幅に引き起こす。
生成品質を維持しながら通信を著しく削減する圧縮フレームワークであるCompactFusionを提案する。
- 参考スコア(独自算出の注目度): 11.093231994205986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models produce realistic images and videos but require substantial computational resources, necessitating multi-accelerator parallelism for real-time deployment. However, parallel inference introduces significant communication overhead from exchanging large activations between devices, limiting efficiency and scalability. We present CompactFusion, a compression framework that significantly reduces communication while preserving generation quality. Our key observation is that diffusion activations exhibit strong temporal redundancy-adjacent steps produce highly similar activations, saturating bandwidth with near-duplicate data carrying little new information. To address this inefficiency, we seek a more compact representation that encodes only the essential information. CompactFusion achieves this via Residual Compression that transmits only compressed residuals (step-wise activation differences). Based on empirical analysis and theoretical justification, we show that it effectively removes redundant data, enabling substantial data reduction while maintaining high fidelity. We also integrate lightweight error feedback to prevent error accumulation. CompactFusion establishes a new paradigm for parallel diffusion inference, delivering lower latency and significantly higher generation quality than prior methods. On 4xL20, it achieves 3.0x speedup while greatly improving fidelity. It also uniquely supports communication-heavy strategies like sequence parallelism on slow networks, achieving 6.7x speedup over prior overlap-based method. CompactFusion applies broadly across diffusion models and parallel settings, and integrates easily without requiring pipeline rework. Portable implementation demonstrated on xDiT is publicly available at https://github.com/Cobalt-27/CompactFusion
- Abstract(参考訳): 拡散モデルは、現実的な画像やビデオを生成するが、リアルタイムなデプロイには、マルチアクセラレータ並列性を必要とする、かなりの計算資源を必要とする。
しかし、並列推論は、デバイス間で大きなアクティベーションを交換し、効率とスケーラビリティを制限することから、通信オーバーヘッドが大幅に増加する。
生成品質を維持しながら通信を著しく削減する圧縮フレームワークであるCompactFusionを提案する。
我々のキーとなる観察は、拡散活性化は強い時間的冗長性を示すものであり、ほとんど新しい情報を持たないほぼ重複したデータで帯域幅を飽和させ、非常によく似た活性化をもたらすことである。
この非効率性に対処するため、本質的な情報のみを符号化するよりコンパクトな表現を求める。
CompactFusionはResidual Compressionを通じてこれを達成し、圧縮された残差のみを送信する(ステップワイズアクティベーション差)。
経験的分析と理論的正当性に基づいて、冗長データを効果的に除去し、高い忠実性を維持しつつ、実質的なデータ削減を可能にすることを示す。
エラーの蓄積を防止するために、軽量なエラーフィードバックも統合しています。
CompactFusionは並列拡散推論の新しいパラダイムを確立し、従来の方法よりもレイテンシが低く、生成品質が大幅に向上した。
4xL20では3.0倍のスピードアップを実現し、忠実度は大幅に向上した。
また、低速ネットワーク上でのシーケンス並列化のような通信量の多い戦略もサポートしており、従来のオーバーラップベースの手法よりも6.7倍のスピードアップを実現している。
CompactFusionは拡散モデルと並列設定に広く適用され、パイプラインの再構築を必要とせずに簡単に統合できる。
xDiTで実証されたポータブル実装はhttps://github.com/Cobalt-27/CompactFusionで公開されている。
関連論文リスト
- Generative Latent Diffusion for Efficient Spatiotemporal Data Reduction [11.494915987840876]
複数のデータセットにまたがる実験結果から,本手法はSZ3などの最先端圧縮機よりも最大10倍高い圧縮率を実現し,同じ再構成誤差下での先行学習手法よりも最大63%高い性能を示した。
論文 参考訳(メタデータ) (2025-07-02T20:27:38Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [14.805702987440512]
我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
論文 参考訳(メタデータ) (2024-12-06T11:29:32Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models [44.384572903945724]
本研究では拡散モデルを用いて高解像度画像を生成する問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
提案手法は,最近の安定拡散XLに品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$timesの高速化を実現している。
論文 参考訳(メタデータ) (2024-02-29T18:59:58Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。