論文の概要: Unveiling Redundancy in Diffusion Transformers (DiTs): A Systematic Study
- arxiv url: http://arxiv.org/abs/2411.13588v1
- Date: Mon, 18 Nov 2024 02:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:24.028630
- Title: Unveiling Redundancy in Diffusion Transformers (DiTs): A Systematic Study
- Title(参考訳): 拡散変圧器(DiT)の解離冗長性 : 系統的研究
- Authors: Xibo Sun, Jiarui Fang, Aoyu Li, Jinzhe Pan,
- Abstract要約: Diffusion Transformer(DiTs)のモデル容量の増大は、推論遅延の著しい増加につながった。
本研究では,主要なDiTモデルの幅広いスペクトルにおける冗長性について検討する。
個別モデルの冗長性を解析するツールを導入し、その後の研究で適切なキャッシュ戦略の開発が可能となる。
- 参考スコア(独自算出の注目度): 2.804955651207721
- License:
- Abstract: The increased model capacity of Diffusion Transformers (DiTs) and the demand for generating higher resolutions of images and videos have led to a significant rise in inference latency, impacting real-time performance adversely. While prior research has highlighted the presence of high similarity in activation values between adjacent diffusion steps (referred to as redundancy) and proposed various caching mechanisms to mitigate computational overhead, the exploration of redundancy in existing literature remains limited, with findings often not generalizable across different DiT models. This study aims to address this gap by conducting a comprehensive investigation into redundancy across a broad spectrum of mainstream DiT models. Our experimental analysis reveals substantial variations in the distribution of redundancy across diffusion steps among different DiT models. Interestingly, within a single model, the redundancy distribution remains stable regardless of variations in input prompts, step counts, or scheduling strategies. Given the lack of a consistent pattern across diverse models, caching strategies designed for a specific group of models may not easily transfer to others. To overcome this challenge, we introduce a tool for analyzing the redundancy of individual models, enabling subsequent research to develop tailored caching strategies for specific model architectures. The project is publicly available at https://github.com/xdit-project/DiTCacheAnalysis.
- Abstract(参考訳): Diffusion Transformer (DiTs) のモデル容量の増大と画像やビデオの高解像度化の需要により、推論遅延が著しく増加し、リアルタイムのパフォーマンスに悪影響を及ぼした。
先行研究は、隣接拡散ステップ間の活性化値に高い類似性があることを強調し、計算オーバーヘッドを軽減するための様々なキャッシング機構を提案したが、既存の文献での冗長性の探索は限定的であり、異なるDiTモデル間では一般化できないことが多い。
本研究は,主要なDiTモデルの幅広い範囲にわたる冗長性に関する包括的調査を行うことにより,このギャップに対処することを目的としている。
実験により,異なるDiTモデル間の拡散過程における冗長性の分布に有意なばらつきが認められた。
興味深いことに、単一のモデル内では、入力プロンプト、ステップカウント、スケジューリング戦略のバリエーションにかかわらず、冗長分布は安定である。
多様なモデルに一貫したパターンが欠如していることを考えると、特定のモデルのグループのために設計されたキャッシュ戦略は、容易に他へ移行できないかもしれない。
この課題を克服するために、個々のモデルの冗長性を解析するツールを導入し、その後の研究で特定のモデルアーキテクチャに適したキャッシュ戦略を開発できるようにする。
プロジェクトはhttps://github.com/xdit-project/DiTCacheAnalysis.comで公開されている。
関連論文リスト
- DisenTS: Disentangled Channel Evolving Pattern Modeling for Multivariate Time Series Forecasting [43.071713191702486]
DisenTSは、一般的な時系列予測において、不整合チャネル進化パターンをモデル化するための調整されたフレームワークである。
本稿では,予測器の状態と入力系列の特性の両方に応じて適応的にルーティング信号を生成する,新しいフォアキャスタ・アウェアゲート(FAG)モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-30T12:46:14Z) - Distillation of Discrete Diffusion through Dimensional Correlations [21.078500510691747]
離散拡散における「ミクチャー」モデルは、拡張性を維持しながら次元相関を扱える。
CIFAR-10データセットで事前学習した連続時間離散拡散モデルを蒸留することにより,提案手法が実際に動作することを実証的に実証した。
論文 参考訳(メタデータ) (2024-10-11T10:53:03Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。
本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。
これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-05T08:45:44Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。