論文の概要: Improving Diffusion-Based Generative Models via Approximated Optimal
Transport
- arxiv url: http://arxiv.org/abs/2403.05069v1
- Date: Fri, 8 Mar 2024 05:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:59:34.102268
- Title: Improving Diffusion-Based Generative Models via Approximated Optimal
Transport
- Title(参考訳): 近似最適輸送による拡散モデルの改良
- Authors: Daegyu Kim, Jooyoung Choi, Chaehun Shin, Uiwon Hwang, Sungroh Yoon
- Abstract要約: 本稿では,拡散モデルを用いた新しい学習手法である近似最適輸送手法を紹介する。
トレーニングにAOTを用いることで,画像品質の向上とサンプリングステップの短縮を実現した。
- 参考スコア(独自算出の注目度): 41.25847212384836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the Approximated Optimal Transport (AOT) technique, a novel
training scheme for diffusion-based generative models. Our approach aims to
approximate and integrate optimal transport into the training process,
significantly enhancing the ability of diffusion models to estimate the
denoiser outputs accurately. This improvement leads to ODE trajectories of
diffusion models with lower curvature and reduced truncation errors during
sampling. We achieve superior image quality and reduced sampling steps by
employing AOT in training. Specifically, we achieve FID scores of 1.88 with
just 27 NFEs and 1.73 with 29 NFEs in unconditional and conditional
generations, respectively. Furthermore, when applying AOT to train the
discriminator for guidance, we establish new state-of-the-art FID scores of
1.68 and 1.58 for unconditional and conditional generations, respectively, each
with 29 NFEs. This outcome demonstrates the effectiveness of AOT in enhancing
the performance of diffusion models.
- Abstract(参考訳): 本稿では,拡散モデルを用いた新しい学習手法である近似最適輸送(AOT)手法を紹介する。
提案手法は,デノイザー出力を正確に推定する拡散モデルの能力を大幅に向上し,最適輸送をトレーニングプロセスに近似・統合することを目的としている。
この改良により、低い曲率を持つ拡散モデルのODE軌道が導かれ、サンプリング時のトランケーション誤差が低減される。
トレーニングにAOTを用いて,画像品質の向上とサンプリングステップの短縮を実現した。
具体的には,FIDスコアは27NFEで1.88,29NFEで1.73,無条件で29NFEでそれぞれ達成した。
さらに, 判別器の指導訓練にAOTを適用した場合, 非条件世代と条件世代でそれぞれ1.68と1.58のFIDスコアを29 NFEで新たに設定する。
この結果は拡散モデルの性能向上におけるaotの有効性を示す。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - CADS: Unleashing the Diversity of Diffusion Models through Condition-Annealed Sampling [27.795088366122297]
Condition-Annealed Diffusion Sampler (CADS) は任意の事前学習モデルとサンプリングアルゴリズムで使用することができる。
本研究では,様々な条件生成タスクにおける拡散モデルの多様性を向上することを示す。
論文 参考訳(メタデータ) (2023-10-26T12:27:56Z) - Analyzing and Improving Optimal-Transport-based Adversarial Networks [9.980822222343921]
最適輸送(OT)問題は、与えられたコスト関数を最小化しつつ、2つの分布をブリッジする輸送計画を見つけることを目的としている。
OT理論は生成モデリングに広く利用されている。
提案手法はCIFAR-10では2.51点,CelebA-HQ-256では5.99点のFIDスコアを得た。
論文 参考訳(メタデータ) (2023-10-04T06:52:03Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Generative Modeling through the Semi-dual Formulation of Unbalanced
Optimal Transport [9.980822222343921]
非平衡最適輸送(UOT)の半二重定式化に基づく新しい生成モデルを提案する。
OTとは異なり、UOTは分散マッチングの厳しい制約を緩和する。このアプローチは、外れ値に対する堅牢性、トレーニング中の安定性、より高速な収束を提供する。
CIFAR-10ではFIDスコアが2.97、CelebA-HQ-256では6.36である。
論文 参考訳(メタデータ) (2023-05-24T06:31:05Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。