論文の概要: Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.18352v1
- Date: Mon, 24 Mar 2025 05:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:13.813655
- Title: Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
- Title(参考訳): 拡散4K:潜時拡散モデルを用いた超高分解能画像合成
- Authors: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang,
- Abstract要約: Diffusion-4Kはテキストと画像の拡散モデルを用いた直接超高解像度画像合成のための新しいフレームワークである。
超高解像度画像生成のための総合ベンチマークであるAesthetic-4Kを構築した。
様々な潜伏拡散モデルに適用可能な4K画像を用いた直接訓練のためのウェーブレットに基づく微調整手法を提案する。
- 参考スコア(独自算出の注目度): 21.46605047406198
- License:
- Abstract: In this paper, we present Diffusion-4K, a novel framework for direct ultra-high-resolution image synthesis using text-to-image diffusion models. The core advancements include: (1) Aesthetic-4K Benchmark: addressing the absence of a publicly available 4K image synthesis dataset, we construct Aesthetic-4K, a comprehensive benchmark for ultra-high-resolution image generation. We curated a high-quality 4K dataset with carefully selected images and captions generated by GPT-4o. Additionally, we introduce GLCM Score and Compression Ratio metrics to evaluate fine details, combined with holistic measures such as FID, Aesthetics and CLIPScore for a comprehensive assessment of ultra-high-resolution images. (2) Wavelet-based Fine-tuning: we propose a wavelet-based fine-tuning approach for direct training with photorealistic 4K images, applicable to various latent diffusion models, demonstrating its effectiveness in synthesizing highly detailed 4K images. Consequently, Diffusion-4K achieves impressive performance in high-quality image synthesis and text prompt adherence, especially when powered by modern large-scale diffusion models (e.g., SD3-2B and Flux-12B). Extensive experimental results from our benchmark demonstrate the superiority of Diffusion-4K in ultra-high-resolution image synthesis.
- Abstract(参考訳): 本稿では,テキスト・画像拡散モデルを用いた超高解像度画像合成のための新しいフレームワークであるDiffusion-4Kを提案する。
1)Aesthetic-4Kベンチマーク:4K画像合成データセットの欠如に対処し,超高解像度画像生成のための総合的なベンチマークであるAesthetic-4Kを構築する。
GPT-4oによる画像とキャプションを慎重に選択し,高品質な4Kデータセットをキュレートした。
さらに,精細度を評価するためのGLCMスコアと圧縮比の指標とFID,Aesthetics,CLIPScoreなどの総合的な尺度を組み合わせて,超高解像度画像の総合的な評価を行う。
2) ウェーブレットベースファインチューニング: 様々な潜伏拡散モデルに適用可能な光現実性4K画像による直接トレーニングのためのウェーブレットベースファインチューニング手法を提案する。
その結果、Diffusion-4Kは、特に現代の大規模拡散モデル(例えば、SD3-2B、Flux-12B)で駆動される場合、高品質な画像合成とテキストプロンプトアテンデンスにおいて優れた性能を発揮する。
超高分解能画像合成における拡散4Kの優位性を示す。
関連論文リスト
- IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis [22.79121512759783]
IV-Mixed Samplerは、ビデオ拡散モデルのための新しいトレーニングフリーアルゴリズムである。
IDMを使用して、各ビデオフレームとVDMの品質を高め、サンプリングプロセス中のビデオの時間的コヒーレンスを確保する。
UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, Chronomagic-Bench-1649 の4つのベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-10-05T14:33:28Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Probabilistic-based Feature Embedding of 4-D Light Fields for
Compressive Imaging and Denoising [62.347491141163225]
4次元光電場(LF)は、効率的で効果的な機能埋め込みを実現する上で大きな課題となる。
様々な低次元畳み込みパターンを組み立てることで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。
実世界および合成4次元LF画像において,本手法の有意な優位性を実証した。
論文 参考訳(メタデータ) (2023-06-15T03:46:40Z) - 4K-HAZE: A Dehazing Benchmark with 4K Resolution Hazy and Haze-Free
Images [12.402054374952485]
まず、シーンの深さを推定し、光線とオブジェクトの反射率をシミュレートし、GANを用いて合成画像を実際の領域に移行する。
これらの合成画像を4K-HAZEデータセットと呼ばれるベンチマークにラップする。
このアプローチの最も魅力的な側面は、24G RAMをリアルタイムで(33fps)1つのGPU上で4Kイメージを実行する機能です。
論文 参考訳(メタデータ) (2023-03-28T09:39:29Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - One-shot Ultra-high-Resolution Generative Adversarial Network That
Synthesizes 16K Images On A Single GPU [1.9060575156739825]
OUR-GANは、単一のトレーニング画像から反復的でない16K画像を生成するワンショット生成対向ネットワークフレームワークである。
OUR-GANは12.5GBのGPUメモリと4Kの画像をわずか4.29GBで合成できる。
OUR-GANは、単一のコンシューマGPU上で反復的でないUHR画像を生成する最初のワンショット画像合成器である。
論文 参考訳(メタデータ) (2022-02-28T13:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。