論文の概要: Masked Diffusion Models Are Fast Distribution Learners
- arxiv url: http://arxiv.org/abs/2306.11363v3
- Date: Fri, 6 Oct 2023 08:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:39:11.434408
- Title: Masked Diffusion Models Are Fast Distribution Learners
- Title(参考訳): マスク拡散モデルは高速分布学習者である
- Authors: Jiachen Lei, Qinglong Wang, Peng Cheng, Zhongjie Ba, Zhan Qin, Zhibo
Wang, Zhenguang Liu, Kui Ren
- Abstract要約: 拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
拡散モデルの初期化のために事前学習段階を設定するのに十分であることを示す。
そして、事前訓練されたモデルを、特定の生成タスクに対して効率的に微調整することができる。
- 参考スコア(独自算出の注目度): 32.485235866596064
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models have emerged as the \emph{de-facto} generative model for
image synthesis, yet they entail significant training overhead, hindering the
technique's broader adoption in the research community. We observe that these
models are commonly trained to learn all fine-grained visual information from
scratch, thus motivating our investigation on its necessity. In this work, we
show that it suffices to set up pre-training stage to initialize a diffusion
model by encouraging it to learn some primer distribution of the unknown real
image distribution. Then the pre-trained model can be fine-tuned for specific
generation tasks efficiently. To approximate the primer distribution, our
approach centers on masking a high proportion (e.g., up to 90\%) of an input
image and employing masked denoising score matching to denoise visible areas.
Utilizing the learned primer distribution in subsequent fine-tuning, we
efficiently train a ViT-based diffusion model on CelebA-HQ $256 \times 256$ in
the raw pixel space, achieving superior training acceleration compared to
denoising diffusion probabilistic model (DDPM) counterpart and a new FID score
record of 6.73 for ViT-based diffusion models. Moreover, our masked
pre-training technique can be universally applied to various diffusion models
that directly generate images in the pixel space, aiding in the learning of
pre-trained models with superior generalizability. For instance, a diffusion
model pre-trained on VGGFace2 attains a 46\% quality improvement through
fine-tuning on only 10\% data from a different dataset. Our code is available
at \url{https://github.com/jiachenlei/maskdm}.
- Abstract(参考訳): 拡散モデルは、画像合成のための \emph{de-facto}生成モデルとして登場したが、それらはかなりのトレーニングオーバーヘッドを伴い、研究コミュニティにおけるテクニックの広範な採用を妨げる。
これらのモデルは、スクラッチからすべてのきめ細かい視覚情報を学習するために一般的に訓練されているため、その必要性に関する調査を動機付けている。
本研究では,未知実画像分布のプライマー分布を学習させることにより,拡散モデルの初期化のために事前学習段階を設定することが十分であることを示す。
そして、事前学習したモデルを特定の生成タスクに対して効率的に微調整することができる。
プライマー分布を近似するために,入力画像の高割合(例えば最大90%)をマスキングし,マスキングスコアマッチングを用いて可視領域をマスキングする手法を提案する。
その後の微調整で学習したプライマー分布を利用して,CelebA-HQ 256 256$で ViT ベースの拡散モデルを効率的に訓練し,拡散確率モデル (DDPM) よりも優れたトレーニングアクセラレーションを実現し,ViT ベースの拡散モデルに対する新たな FID スコアレコードを6.73 とした。
さらに,マスキングプリトレーニング技術は,ピクセル空間内で直接画像を生成する様々な拡散モデルに普遍的に適用でき,より一般化性の高い事前学習モデルの学習を支援する。
例えば、vggface2で事前トレーニングされた拡散モデルは、異なるデータセットから10\%のデータだけを微調整することで、46\%の品質改善を達成する。
私たちのコードは \url{https://github.com/jiachenlei/maskdm} で利用可能です。
関連論文リスト
- Learning on Less: Constraining Pre-trained Model Learning for Generalizable Diffusion-Generated Image Detection [13.610095493539394]
拡散モデルは、現実的な画像生成を可能にし、誤報のリスクを高め、公衆信頼を損なう。
現在、既存の手法の限定的な一般化能力のため、目に見えない拡散モデルによって生成された画像の検出は困難である。
我々はLearning on Less (LoL) という,シンプルで効果的な学習方法を提案する。
論文 参考訳(メタデータ) (2024-12-01T04:01:43Z) - Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。
我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。
私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文 参考訳(メタデータ) (2024-10-11T05:03:56Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。