論文の概要: On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.03177v1
- Date: Tue, 05 Nov 2024 15:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:11.581771
- Title: On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models
- Title(参考訳): 拡散モデルにおける条件設定機構の改善と事前学習方略について
- Authors: Tariq Berrada Ifriqi, Pietro Astolfi, Melissa Hall, Reyhane Askari-Hemmat, Yohann Benchetrit, Marton Havasi, Matthew Muckley, Karteek Alahari, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal,
- Abstract要約: 最高の潜伏拡散モデル (LDMs) トレーニングレシピの鍵となる要素は、しばしば研究コミュニティでは利用できない。
我々は,モデルの性能とトレーニング効率に着目したLCMトレーニングレシピの詳細な研究を行う。
本稿では,セマンティクスと制御メタデータの条件付けを両立させる新しい条件付け機構を提案する。
- 参考スコア(独自算出の注目度): 27.402312440922557
- License:
- Abstract: Large-scale training of latent diffusion models (LDMs) has enabled unprecedented quality in image generation. However, the key components of the best performing LDM training recipes are oftentimes not available to the research community, preventing apple-to-apple comparisons and hindering the validation of progress in the field. In this work, we perform an in-depth study of LDM training recipes focusing on the performance of models and their training efficiency. To ensure apple-to-apple comparisons, we re-implement five previously published models with their corresponding recipes. Through our study, we explore the effects of (i)~the mechanisms used to condition the generative model on semantic information (e.g., text prompt) and control metadata (e.g., crop size, random flip flag, etc.) on the model performance, and (ii)~the transfer of the representations learned on smaller and lower-resolution datasets to larger ones on the training efficiency and model performance. We then propose a novel conditioning mechanism that disentangles semantic and control metadata conditionings and sets a new state-of-the-art in class-conditional generation on the ImageNet-1k dataset -- with FID improvements of 7% on 256 and 8% on 512 resolutions -- as well as text-to-image generation on the CC12M dataset -- with FID improvements of 8% on 256 and 23% on 512 resolution.
- Abstract(参考訳): 遅延拡散モデル(LDM)の大規模トレーニングは、画像生成において前例のない品質を実現している。
しかし、最高のLCMトレーニングレシピの鍵となる要素は、しばしば研究コミュニティでは利用できないため、リンゴとリンゴの比較が防止され、現場での進歩の検証が妨げられる。
本研究では,モデルの性能と学習効率に着目したLCMトレーニングレシピの詳細な研究を行う。
アップル・ツー・アップル比較を確実にするために、以前に発行された5つのモデルを対応するレシピで再実装した。
我々の研究を通して、我々はその影響を探求する。
(i)~モデル性能に関する意味情報(例えば、テキストプロンプト)と制御メタデータ(例えば、作物サイズ、ランダムフリップフラグなど)に生成モデルを条件付けるためのメカニズム。
(ii)~ より小型で低解像度なデータセットで学習した表現を、トレーニング効率とモデル性能に関するより大きなデータセットに転送する。
次に、セマンティックおよびコントロールメタデータの条件付けをアンタングル化し、ImageNet-1kデータセットでクラス条件生成の最先端を新たに設定する新しい条件付け機構を提案します。FIDの改善は256で7%、512の解像度で8%、CC12Mデータセットではテキスト・ツー・イメージ生成は256で8%、512の解像度で23%です。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。
現状のトランスフォーマーに基づく拡散モデルを用いて行った4つのデータセット実験により,FIDを平均1.5だけ増加させながらMACを50ドル削減できることが実証された。
論文 参考訳(メタデータ) (2024-04-16T10:31:06Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Ef-QuantFace: Streamlined Face Recognition with Small Data and Low-Bit
Precision [1.9389881806157312]
本稿では,MS1Mの440倍の14,000枚の画像でモデルを微調整する効率駆動型手法を提案する。
我々は、より小さなデータセットで有効量子化が達成可能であることを実証し、新しいパラダイムを提示する。
論文 参考訳(メタデータ) (2024-02-28T08:53:01Z) - Structure-Guided Adversarial Training of Diffusion Models [27.723913809313125]
拡散モデル(SADM)の構造誘導型逆トレーニングについて紹介する。
トレーニングバッチ毎にサンプル間の多様体構造を学習するようにモデルを強制する。
SADMは既存の拡散変換器を大幅に改善し、画像生成や微調整タスクにおいて既存の手法より優れている。
論文 参考訳(メタデータ) (2024-02-27T15:05:13Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Training Data Protection with Compositional Diffusion Models [99.46239561159953]
比較拡散モデル(CDM)は、異なるデータソース上で異なる拡散モデル(またはプロンプト)を訓練する手法である。
個々のモデルは、独立した、異なるタイミングで、異なる分散とドメインでトレーニングすることができる。
各モデルには、トレーニング中に露出したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。
論文 参考訳(メタデータ) (2023-08-02T23:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。