論文の概要: Masked Diffusion Models Are Fast Distribution Learners
- arxiv url: http://arxiv.org/abs/2306.11363v4
- Date: Mon, 27 Nov 2023 11:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 15:46:54.617176
- Title: Masked Diffusion Models Are Fast Distribution Learners
- Title(参考訳): マスク拡散モデルは高速分布学習者である
- Authors: Jiachen Lei, Qinglong Wang, Peng Cheng, Zhongjie Ba, Zhan Qin, Zhibo
Wang, Zhenguang Liu, Kui Ren
- Abstract要約: 拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
- 参考スコア(独自算出の注目度): 32.485235866596064
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion model has emerged as the \emph{de-facto} model for image
generation, yet the heavy training overhead hinders its broader adoption in the
research community. We observe that diffusion models are commonly trained to
learn all fine-grained visual information from scratch. This paradigm may cause
unnecessary training costs hence requiring in-depth investigation. In this
work, we show that it suffices to train a strong diffusion model by first
pre-training the model to learn some primer distribution that loosely
characterizes the unknown real image distribution. Then the pre-trained model
can be fine-tuned for various generation tasks efficiently. In the pre-training
stage, we propose to mask a high proportion (e.g., up to 90\%) of input images
to approximately represent the primer distribution and introduce a masked
denoising score matching objective to train a model to denoise visible areas.
In subsequent fine-tuning stage, we efficiently train diffusion model without
masking. Utilizing the two-stage training framework, we achieves significant
training acceleration and a new FID score record of 6.27 on CelebA-HQ $256
\times 256$ for ViT-based diffusion models. The generalizability of a
pre-trained model further helps building models that perform better than ones
trained from scratch on different downstream datasets. For instance, a
diffusion model pre-trained on VGGFace2 attains a 46\% quality improvement when
fine-tuned on a different dataset that contains only 3000 images. Our code is
available at \url{https://github.com/jiachenlei/maskdm}.
- Abstract(参考訳): 拡散モデルは画像生成のためのemph{de-facto}モデルとして登場したが、重いトレーニングのオーバーヘッドは研究コミュニティで広く採用されるのを妨げる。
拡散モデルは、スクラッチからすべてのきめ細かい視覚情報を学習するために一般的に訓練されている。
このパラダイムは不要なトレーニングコストを引き起こす可能性があるため、詳細な調査が必要となる。
本研究では,まずモデルを事前学習し,未知の実像分布をゆるやかに特徴付けるプライマー分布を学習することにより,強い拡散モデルを訓練できることを示す。
そして、様々な生成タスクに対して、事前学習したモデルを効率的に微調整することができる。
事前学習の段階では、入力画像の高割合(例えば最大90%)をマスキングして、プリンシパル分布を近似的に表現し、マスク付きデノナイジングスコアマッチング目標を導入して、可視領域を識別するモデルを訓練する。
その後の微調整段階において,マスキングを伴わずに効率的に拡散モデルを訓練する。
2段階のトレーニングフレームワークを利用することで,CelebA-HQ $256 \times 256$のトレーニングアクセラレーションと新たなFIDスコア6.27を達成した。
事前トレーニングされたモデルの一般化は、異なるダウンストリームデータセットでスクラッチからトレーニングされたモデルよりも優れたパフォーマンスのモデルを構築するのに役立つ。
例えば、VGGFace2で事前トレーニングされた拡散モデルは、3000の画像のみを含む異なるデータセットで微調整された場合、46\%の品質改善が達成される。
私たちのコードは \url{https://github.com/jiachenlei/maskdm} で利用可能です。
関連論文リスト
- Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。
我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。
私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文 参考訳(メタデータ) (2024-10-11T05:03:56Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。