Fugu-MT 論文翻訳(概要): Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

論文の概要: Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

arxiv url: http://arxiv.org/abs/2312.09181v3
Date: Thu, 4 Jul 2024 17:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 00:32:39.282487
Title: Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures
Title（参考訳）: マルチステージフレームワークと階層型マルチデコーダアーキテクチャによる拡散モデルの効率化
Authors: Huijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon Song, Qing Qu,
Abstract要約: 拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
参考スコア（独自算出の注目度）: 12.703947839247693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models, emerging as powerful deep generative tools, excel in various applications. They operate through a two-steps process: introducing noise into training samples and then employing a model to convert random noise into new samples (e.g., images). However, their remarkable generative performance is hindered by slow training and sampling. This is due to the necessity of tracking extensive forward and reverse diffusion trajectories, and employing a large model with numerous parameters across multiple timesteps (i.e., noise levels). To tackle these challenges, we present a multi-stage framework inspired by our empirical findings. These observations indicate the advantages of employing distinct parameters tailored to each timestep while retaining universal parameters shared across all time steps. Our approach involves segmenting the time interval into multiple stages where we employ custom multi-decoder U-net architecture that blends time-dependent models with a universally shared encoder. Our framework enables the efficient distribution of computational resources and mitigates inter-stage interference, which substantially improves training efficiency. Extensive numerical experiments affirm the effectiveness of our framework, showcasing significant training and sampling efficiency enhancements on three state-of-the-art diffusion models, including large-scale latent diffusion models. Furthermore, our ablation studies illustrate the impact of two important components in our framework: (i) a novel timestep clustering algorithm for stage division, and (ii) an innovative multi-decoder U-net architecture, seamlessly integrating universal and customized hyperparameters.
Abstract（参考訳）: 拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。トレーニングサンプルにノイズを導入し、ランダムノイズを新しいサンプル(例:画像)に変換するモデルを使用する。しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。これは、広範囲の前方および逆拡散軌跡を追跡する必要があり、複数の時間ステップ(ノイズレベル)にまたがる多数のパラメータを持つ大きなモデルを使用する必要があるためである。これらの課題に対処するために、経験的発見にインスパイアされた多段階のフレームワークを提案する。これらの観察は、全ての時間ステップで共有される普遍的なパラメータを保持しながら、各時間ステップに合わせた異なるパラメータを使用する利点を示している。このアプローチでは、時間依存モデルと普遍的に共有されるエンコーダをブレンドするカスタムマルチデコーダU-netアーキテクチャを用いて、時間間隔を複数のステージに分割する。本フレームワークは,計算資源の効率的な分配を可能にし,段階間干渉を緩和し,トレーニング効率を大幅に向上させる。大規模な潜伏拡散モデルを含む3つの最先端拡散モデルに対して,本フレームワークの有効性を実証し,大幅なトレーニングとサンプリング効率の向上を図った。さらに、当社のアブレーション調査では、フレームワークにおける2つの重要なコンポーネントの影響が示されています。 (i)ステージ分割のための新しいタイムステップクラスタリングアルゴリズム (II) ユニバーサルおよびカスタマイズされたハイパーパラメータをシームレスに統合した,革新的なマルチデコーダU-netアーキテクチャ。

関連論文リスト

Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。 Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文参考訳（メタデータ） (2025-06-24T17:58:02Z)
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文参考訳（メタデータ） (2025-05-28T04:23:22Z)
Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2025-04-10T17:57:28Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2024-01-09T03:42:08Z)
Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文参考訳（メタデータ） (2023-10-03T01:13:17Z)
Multi-Architecture Multi-Expert Diffusion Models [18.463425624382115]
我々は,Multi-architecturE Multi-Expertfusion Model (MEME)を紹介する。 MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。我々はMEMEが,大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対して,新たな設計選択を開放すると主張している。
論文参考訳（メタデータ） (2023-06-08T07:24:08Z)
Diffusion Recommender Model [85.9640416600725]
そこで我々は,DiffRecと呼ばれる新しい拡散レコメンダモデルを提案し,その生成過程を認知的に学習する。ユーザインタラクションにおけるパーソナライズされた情報を維持するため、DiffRecは追加のノイズを低減し、画像合成のような純粋なノイズに対するユーザのインタラクションを損なうことを避ける。
論文参考訳（メタデータ） (2023-04-11T04:31:00Z)
Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文参考訳（メタデータ） (2023-01-08T12:20:46Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-16T07:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。