論文の概要: Enhancing Diffusion-Based Quantitatively Controllable Image Generation via Matrix-Form EDM and Adaptive Vicinal Training
- arxiv url: http://arxiv.org/abs/2602.02114v1
- Date: Mon, 02 Feb 2026 13:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.186351
- Title: Enhancing Diffusion-Based Quantitatively Controllable Image Generation via Matrix-Form EDM and Adaptive Vicinal Training
- Title(参考訳): マトリックス型EDMと適応バイシナルトレーニングによる拡散に基づく定量的制御可能な画像生成の強化
- Authors: Xin Ding, Yun Chen, Sen Zhang, Kao Zhang, Nenglun Chen, Peibei Cao, Yongwei Wang, Fei Wu,
- Abstract要約: 連続条件拡散モデル(Continuous Conditional Diffusion Model, CCDM)は、連続回帰ラベルに条件付き高品質な画像を生成するために設計された拡散ベースのフレームワークである。
我々は,より高度なテキスト化拡散モデル(EDM, textitElucidated Diffusion Model)フレームワークを組み込んだiCCDMを提案する。
4つのベンチマークデータセットの実験では、画像解像度が64ドルから256ドルまでの範囲で、iCCDMが既存のメソッドを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 22.721395122355187
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Continuous Conditional Diffusion Model (CCDM) is a diffusion-based framework designed to generate high-quality images conditioned on continuous regression labels. Although CCDM has demonstrated clear advantages over prior approaches across a range of datasets, it still exhibits notable limitations and has recently been surpassed by a GAN-based method, namely CcGAN-AVAR. These limitations mainly arise from its reliance on an outdated diffusion framework and its low sampling efficiency due to long sampling trajectories. To address these issues, we propose an improved CCDM framework, termed iCCDM, which incorporates the more advanced \textit{Elucidated Diffusion Model} (EDM) framework with substantial modifications to improve both generation quality and sampling efficiency. Specifically, iCCDM introduces a novel matrix-form EDM formulation together with an adaptive vicinal training strategy. Extensive experiments on four benchmark datasets, spanning image resolutions from $64\times64$ to $256\times256$, demonstrate that iCCDM consistently outperforms existing methods, including state-of-the-art large-scale text-to-image diffusion models (e.g., Stable Diffusion 3, FLUX.1, and Qwen-Image), achieving higher generation quality while significantly reducing sampling cost.
- Abstract(参考訳): 連続条件拡散モデル(Continuous Conditional Diffusion Model, CCDM)は、連続回帰ラベルに条件付き高品質な画像を生成するために設計された拡散ベースのフレームワークである。
CCDMは、さまざまなデータセットにまたがる以前のアプローチよりも明確な優位性を示しているが、依然として顕著な制限があり、最近はGANベースの手法であるCcGAN-AVARに取って代わられている。
これらの制限は主に、時代遅れの拡散フレームワークへの依存と、長いサンプリング軌道によるサンプリング効率の低下から生じる。
これらの課題に対処するため,より高度な \textit{Elucidated Diffusion Model} (EDM) フレームワークを組み込んだ改良型 CCDM フレームワーク iCCDM を提案する。
特に、iCCDMは適応的なヴィジナルトレーニング戦略とともに、新しいマトリックス形式のEDMの定式化を導入する。
4つのベンチマークデータセットに対する大規模な実験では、画像解像度が6,4\times64$から2,56\times256$にまたがるが、iCCDMは、最先端の大規模テキスト・画像拡散モデル(例えば、安定拡散3, FLUX.1, Qwen-Image)など、既存の手法を一貫して上回り、サンプリングコストを大幅に削減しながら、より高い生成品質を実現している。
関連論文リスト
- Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - CCDM: Continuous Conditional Diffusion Models for Image Generation [22.70942688582302]
条件拡散モデル(CDM)は連続条件生成モデリング(CCGM)に代わる有望な選択肢を提供する
CDMは、特別に設計された条件拡散プロセス、新しいハード・ヴィジナル・イメージ・デノージング・ロス、効率的な条件サンプリング・プロシージャによる既存の制限に対処する。
CCDMは最先端のCCGMモデルより優れており,新たなベンチマークが確立されている。
論文 参考訳(メタデータ) (2024-05-06T15:10:19Z) - Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。