Fugu-MT 論文翻訳(概要): Masked Diffusion Models are Fast Learners

論文の概要: Masked Diffusion Models are Fast Learners

arxiv url: http://arxiv.org/abs/2306.11363v1
Date: Tue, 20 Jun 2023 08:02:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 15:13:01.180744
Title: Masked Diffusion Models are Fast Learners
Title（参考訳）: マスク拡散モデルは高速な学習者です
Authors: Jiachen Lei, Peng Cheng, Zhongjie Ba, Kui Ren
Abstract要約: 本稿では,事前学習と微調整のパラダイムを拡散モデルトレーニングプロセスに組み込んだ,事前学習学習フレームワークを提案する。提案手法は,入力画像の高割合のマスキングと,可視領域を識別するためにマスク付きスコアマッチングを用いる。このマスク付き学習過程を事前学習段階に利用することにより、画素空間内のCelebA-HQ 256x256上でViTベースの拡散モデルを効率的に訓練する。
参考スコア（独自算出の注目度）: 19.456368494347952
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Diffusion models have emerged as the de-facto technique for image generation, yet they entail significant computational overhead, hindering the technique's broader application in the research community. We propose a prior-based denoising training framework, the first to incorporate the pre-train and fine-tune paradigm into the diffusion model training process, which substantially improves training efficiency and shows potential in facilitating various downstream tasks. Our approach centers on masking a high proportion (e.g., up to 90%) of the input image and employing masked score matching to denoise the visible areas, thereby guiding the diffusion model to learn more salient features from training data as prior knowledge. By utilizing this masked learning process in a pre-training stage, we efficiently train the ViT-based diffusion model on CelebA-HQ 256x256 in the pixel space, achieving a 4x acceleration and enhancing the quality of generated images compared to DDPM. Moreover, our masked pre-training technique is universally applicable to various diffusion models that directly generate images in the pixel space and facilitates learning pre-trained models with excellent generalizability: a diffusion model pre-trained on VGGFace2 attains a 46% quality improvement through fine-tuning with merely 10% local data. Our code is available at https://github.com/jiachenlei/maskdm.
Abstract（参考訳）: 拡散モデルは画像生成のためのデファクト技術として登場したが、それらはかなりの計算オーバーヘッドを伴い、研究コミュニティにおけるこの技術の幅広い応用を妨げる。本稿では,事前学習と微調整のパラダイムを拡散モデルトレーニングプロセスに組み込んだ事前学習訓練フレームワークを提案する。提案手法は,入力画像の高割合(例えば最大90%)をマスキングし,可視領域を識別するためにマスク付きスコアマッチングを用いて,事前知識としてトレーニングデータからより健全な特徴を学習するための拡散モデルを導出する。このマスク付き学習過程を事前学習段階に利用することにより、画素空間におけるCelebA-HQ 256x256上のViTベースの拡散モデルを効率的に訓練し、4倍の加速を実現し、DDPMと比較して生成画像の品質を向上させる。さらに,VGGFace2で事前学習した拡散モデルでは,局所データを10%だけ微調整することで,46%の品質向上を実現している。私たちのコードはhttps://github.com/jiachenlei/maskdmで利用可能です。

関連論文リスト

Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training? [36.827310918094874]
高品質なオープンソーステキスト・ツー・イメージモデルは、フォトリアリスティックな画像を得るためのしきい値を大幅に下げている。疑念は、これらの生成モデルによって生成された合成データを使用して、特定のタスクのためのモデルを許可なく訓練することができる。トレーニングデータ保証検証(TrainProVe)と呼ばれる,この重要な未解決問題に対する最初の手法を提案する。 Stable Diffusion v1.4, latent consistency model, PixArt-$alpha$, Stable Cascade)。
論文参考訳（メタデータ） (2025-03-12T07:15:16Z)
Learning on Less: Constraining Pre-trained Model Learning for Generalizable Diffusion-Generated Image Detection [13.610095493539394]
拡散モデルは、現実的な画像生成を可能にし、誤報のリスクを高め、公衆信頼を損なう。現在、既存の手法の限定的な一般化能力のため、目に見えない拡散モデルによって生成された画像の検出は困難である。我々はLearning on Less (LoL) という,シンプルで効果的な学習方法を提案する。
論文参考訳（メタデータ） (2024-12-01T04:01:43Z)
Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文参考訳（メタデータ） (2024-10-11T05:03:56Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-01-20T08:10:43Z)
Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文参考訳（メタデータ） (2023-12-20T18:27:53Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文参考訳（メタデータ） (2023-04-14T15:12:19Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)
On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。 ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文参考訳（メタデータ） (2022-06-09T17:58:24Z)
KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文参考訳（メタデータ） (2022-04-06T14:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。