論文の概要: Sparse-to-Sparse Training of Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.21380v1
- Date: Wed, 30 Apr 2025 07:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 22:05:17.883026
- Title: Sparse-to-Sparse Training of Diffusion Models
- Title(参考訳): 拡散モデルのスパース・ツー・スパース訓練
- Authors: Inês Cardoso Oliveira, Decebal Constantin Mocanu, Luis A. Leiva,
- Abstract要約: 本稿では,DMに対するスパース・ツー・スパーストレーニングのパラダイムを初めて紹介する。
我々は、無条件生成と6つのデータセットでスクラッチからスパースDMを訓練することに重点を置いている。
実験の結果,スパースDMはトレーニング可能なパラメータやFLOPの数を著しく減らしながら,相性が良く,性能も優れていることがわかった。
- 参考スコア(独自算出の注目度): 13.443846454835867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) are a powerful type of generative models that have achieved state-of-the-art results in various image synthesis tasks and have shown potential in other domains, such as natural language processing and temporal data modeling. Despite their stable training dynamics and ability to produce diverse high-quality samples, DMs are notorious for requiring significant computational resources, both in the training and inference stages. Previous work has focused mostly on increasing the efficiency of model inference. This paper introduces, for the first time, the paradigm of sparse-to-sparse training to DMs, with the aim of improving both training and inference efficiency. We focus on unconditional generation and train sparse DMs from scratch (Latent Diffusion and ChiroDiff) on six datasets using three different methods (Static-DM, RigL-DM, and MagRan-DM) to study the effect of sparsity in model performance. Our experiments show that sparse DMs are able to match and often outperform their Dense counterparts, while substantially reducing the number of trainable parameters and FLOPs. We also identify safe and effective values to perform sparse-to-sparse training of DMs.
- Abstract(参考訳): 拡散モデル(DM)は、様々な画像合成タスクにおいて最先端の結果を達成し、自然言語処理や時間的データモデリングなど他の領域でポテンシャルを示す強力な生成モデルである。
安定したトレーニングのダイナミクスと多様な高品質のサンプルを作成する能力にもかかわらず、DMはトレーニングと推論の段階の両方において重要な計算資源を必要とすることで有名である。
これまでの研究は、主にモデル推論の効率を上げることに重点を置いてきた。
本稿では,DMに対するスパース・ツー・スパーストレーニングのパラダイムを初めて紹介し,トレーニングと推論効率の改善を目的とした。
我々は, モデル性能における疎度の影響を調べるために, 3つの異なる手法(Static-DM, RigL-DM, MagRan-DM)を用いて, スクラッチからの非条件生成と列車スパースDM(Latent Diffusion, ChiroDiff)に焦点を当てた。
実験の結果,訓練可能なパラメータやFLOPの数を大幅に減らしながら,スパースDMがDenseに適合し,しばしば優れることがわかった。
また,DMのスパース・ツー・スパース・トレーニングを行う上で,安全かつ効果的な値も同定した。
関連論文リスト
- Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture [69.58440626023541]
拡散モデル(DM)は、様々な領域にまたがる例外的な生成能力を示す。
DMはますます大量のデータを消費している。
既存のDMをデータソースとして使用して,新しいDMをアーキテクチャでトレーニングする,という新しいシナリオを提案する。
論文 参考訳(メタデータ) (2024-09-05T14:12:22Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Slight Corruption in Pre-training Data Makes Better Diffusion Models [71.90034201302397]
拡散モデル(DM)は、高品質な画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
DMは大規模なデータセットでの広範な事前トレーニングの恩恵を受ける。
しかしながら、事前トレーニングデータセットは、しばしば、データを正確に記述しないような、破損したペアを含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
論文 参考訳(メタデータ) (2024-05-30T21:35:48Z) - Towards Faster Training of Diffusion Models: An Inspiration of A Consistency Phenomenon [16.416356358224842]
近年,拡散モデル (DM) が注目されている。
DMの訓練を加速する2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-14T13:27:04Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。