論文の概要: Improving Efficiency of Diffusion Models via Multi-Stage Framework and
Tailored Multi-Decoder Architectures
- arxiv url: http://arxiv.org/abs/2312.09181v1
- Date: Thu, 14 Dec 2023 17:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:38:43.066539
- Title: Improving Efficiency of Diffusion Models via Multi-Stage Framework and
Tailored Multi-Decoder Architectures
- Title(参考訳): マルチステージフレームワークと階層型マルチデコーダアーキテクチャによる拡散モデルの効率化
- Authors: Huijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon
Song and Qing Qu
- Abstract要約: 拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.4613041236933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, emerging as powerful deep generative tools, excel in
various applications. They operate through a two-steps process: introducing
noise into training samples and then employing a model to convert random noise
into new samples (e.g., images). However, their remarkable generative
performance is hindered by slow training and sampling. This is due to the
necessity of tracking extensive forward and reverse diffusion trajectories, and
employing a large model with numerous parameters across multiple timesteps
(i.e., noise levels). To tackle these challenges, we present a multi-stage
framework inspired by our empirical findings. These observations indicate the
advantages of employing distinct parameters tailored to each timestep while
retaining universal parameters shared across all time steps. Our approach
involves segmenting the time interval into multiple stages where we employ
custom multi-decoder U-net architecture that blends time-dependent models with
a universally shared encoder. Our framework enables the efficient distribution
of computational resources and mitigates inter-stage interference, which
substantially improves training efficiency. Extensive numerical experiments
affirm the effectiveness of our framework, showcasing significant training and
sampling efficiency enhancements on three state-of-the-art diffusion models,
including large-scale latent diffusion models. Furthermore, our ablation
studies illustrate the impact of two important components in our framework: (i)
a novel timestep clustering algorithm for stage division, and (ii) an
innovative multi-decoder U-net architecture, seamlessly integrating universal
and customized hyperparameters.
- Abstract(参考訳): 強力な深層生成ツールとして出現する拡散モデルは、様々なアプリケーションにおいて優れている。
トレーニングサンプルにノイズを導入すると、ランダムノイズを新しいサンプル(画像など)に変換するモデルを採用する。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡し、複数の時間ステップ(すなわちノイズレベル)にまたがる多数のパラメータを持つ大きなモデルを採用する必要があるためである。
これらの課題に取り組むために,我々は経験的知見に触発された多段階フレームワークを提案する。
これらの観察は、全ての時間ステップで共有される普遍的なパラメータを保持しながら、各時間ステップに合わせた異なるパラメータを使用する利点を示している。
このアプローチでは、時間依存モデルと普遍的に共有されるエンコーダをブレンドするカスタムマルチデコーダU-netアーキテクチャを用いて、時間間隔を複数のステージに分割する。
本フレームワークは,計算資源の効率的な分散を可能にし,ステージ間干渉を軽減し,トレーニング効率を大幅に向上させる。
大規模な潜伏拡散モデルを含む3つの最先端拡散モデルに対して,本フレームワークの有効性を実証し,大幅なトレーニングとサンプリング効率の向上を図った。
さらに, アブレーション研究は, フレームワークにおける2つの重要な要素の影響を明らかにした。
(i)ステージ分割のための新しい時間ステップクラスタリングアルゴリズム
(II) ユニバーサルおよびカスタマイズされたハイパーパラメータをシームレスに統合した,革新的なマルチデコーダU-netアーキテクチャ。
関連論文リスト
- Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - PrACTiS: Perceiver-Attentional Copulas for Time Series [27.107746150930055]
本稿では、時系列予測を強化するために、知覚アーキテクチャとコプラ構造を組み合わせたモデルを提案する。
認識器をエンコーダとして利用することにより、複雑な高次元のマルチモーダルデータをコンパクトな潜在空間に効率よく変換する。
また,コプラに基づくアテンションと出力分散試験機構を配置し,欠落データの連成分布を抽出する。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Multi-Architecture Multi-Expert Diffusion Models [18.463425624382115]
我々は,Multi-architecturE Multi-Expertfusion Model (MEME)を紹介する。
MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。
我々はMEMEが,大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対して,新たな設計選択を開放すると主張している。
論文 参考訳(メタデータ) (2023-06-08T07:24:08Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Stacking VAE with Graph Neural Networks for Effective and Interpretable
Time Series Anomaly Detection [5.935707085640394]
本研究では,実効かつ解釈可能な時系列異常検出のための,グラフニューラルネットワークを用いた自動エンコーダ(VAE)モデルを提案する。
我々は,提案モデルが3つの公開データセットの強いベースラインを上回っており,大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-05-18T09:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。