論文の概要: Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures
- arxiv url: http://arxiv.org/abs/2312.09181v3
- Date: Thu, 4 Jul 2024 17:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:32:39.282487
- Title: Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures
- Title(参考訳): マルチステージフレームワークと階層型マルチデコーダアーキテクチャによる拡散モデルの効率化
- Authors: Huijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon Song, Qing Qu,
- Abstract要約: 拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.703947839247693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, emerging as powerful deep generative tools, excel in various applications. They operate through a two-steps process: introducing noise into training samples and then employing a model to convert random noise into new samples (e.g., images). However, their remarkable generative performance is hindered by slow training and sampling. This is due to the necessity of tracking extensive forward and reverse diffusion trajectories, and employing a large model with numerous parameters across multiple timesteps (i.e., noise levels). To tackle these challenges, we present a multi-stage framework inspired by our empirical findings. These observations indicate the advantages of employing distinct parameters tailored to each timestep while retaining universal parameters shared across all time steps. Our approach involves segmenting the time interval into multiple stages where we employ custom multi-decoder U-net architecture that blends time-dependent models with a universally shared encoder. Our framework enables the efficient distribution of computational resources and mitigates inter-stage interference, which substantially improves training efficiency. Extensive numerical experiments affirm the effectiveness of our framework, showcasing significant training and sampling efficiency enhancements on three state-of-the-art diffusion models, including large-scale latent diffusion models. Furthermore, our ablation studies illustrate the impact of two important components in our framework: (i) a novel timestep clustering algorithm for stage division, and (ii) an innovative multi-decoder U-net architecture, seamlessly integrating universal and customized hyperparameters.
- Abstract(参考訳): 拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
トレーニングサンプルにノイズを導入し、ランダムノイズを新しいサンプル(例:画像)に変換するモデルを使用する。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌跡を追跡する必要があり、複数の時間ステップ(ノイズレベル)にまたがる多数のパラメータを持つ大きなモデルを使用する必要があるためである。
これらの課題に対処するために、経験的発見にインスパイアされた多段階のフレームワークを提案する。
これらの観察は、全ての時間ステップで共有される普遍的なパラメータを保持しながら、各時間ステップに合わせた異なるパラメータを使用する利点を示している。
このアプローチでは、時間依存モデルと普遍的に共有されるエンコーダをブレンドするカスタムマルチデコーダU-netアーキテクチャを用いて、時間間隔を複数のステージに分割する。
本フレームワークは,計算資源の効率的な分配を可能にし,段階間干渉を緩和し,トレーニング効率を大幅に向上させる。
大規模な潜伏拡散モデルを含む3つの最先端拡散モデルに対して,本フレームワークの有効性を実証し,大幅なトレーニングとサンプリング効率の向上を図った。
さらに、当社のアブレーション調査では、フレームワークにおける2つの重要なコンポーネントの影響が示されています。
(i)ステージ分割のための新しいタイムステップクラスタリングアルゴリズム
(II) ユニバーサルおよびカスタマイズされたハイパーパラメータをシームレスに統合した,革新的なマルチデコーダU-netアーキテクチャ。
関連論文リスト
- Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Multi-Architecture Multi-Expert Diffusion Models [18.463425624382115]
我々は,Multi-architecturE Multi-Expertfusion Model (MEME)を紹介する。
MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。
我々はMEMEが,大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対して,新たな設計選択を開放すると主張している。
論文 参考訳(メタデータ) (2023-06-08T07:24:08Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。