論文の概要: Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation
- arxiv url: http://arxiv.org/abs/2506.01331v1
- Date: Mon, 02 Jun 2025 05:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.042406
- Title: Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation
- Title(参考訳): 超高分解能画像合成:データ, 方法, 評価
- Authors: Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang,
- Abstract要約: Aesthetic-4Kデータセットは、超高解像度画像合成に関する包括的な研究のためにキュレートされている。
Diffusion-4Kは超高解像度画像の直接生成のための革新的なフレームワークである。
- 参考スコア(独自算出の注目度): 21.46605047406198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-high-resolution image synthesis holds significant potential, yet remains an underexplored challenge due to the absence of standardized benchmarks and computational constraints. In this paper, we establish Aesthetic-4K, a meticulously curated dataset containing dedicated training and evaluation subsets specifically designed for comprehensive research on ultra-high-resolution image synthesis. This dataset consists of high-quality 4K images accompanied by descriptive captions generated by GPT-4o. Furthermore, we propose Diffusion-4K, an innovative framework for the direct generation of ultra-high-resolution images. Our approach incorporates the Scale Consistent Variational Auto-Encoder (SC-VAE) and Wavelet-based Latent Fine-tuning (WLF), which are designed for efficient visual token compression and the capture of intricate details in ultra-high-resolution images, thereby facilitating direct training with photorealistic 4K data. This method is applicable to various latent diffusion models and demonstrates its efficacy in synthesizing highly detailed 4K images. Additionally, we propose novel metrics, namely the GLCM Score and Compression Ratio, to assess the texture richness and fine details in local patches, in conjunction with holistic measures such as FID, Aesthetics, and CLIPScore, enabling a thorough and multifaceted evaluation of ultra-high-resolution image synthesis. Consequently, Diffusion-4K achieves impressive performance in ultra-high-resolution image synthesis, particularly when powered by state-of-the-art large-scale diffusion models (eg, Flux-12B). The source code is publicly available at https://github.com/zhang0jhon/diffusion-4k.
- Abstract(参考訳): 超高解像度画像合成は大きな可能性を秘めているが、標準化されたベンチマークと計算の制約が欠如しているため、未発見の課題である。
本稿では,超高解像度画像合成の包括的研究に特化して設計された,専用トレーニングと評価サブセットを含む精巧にキュレートされたデータセットであるAesthetic-4Kを確立する。
このデータセットは、GPT-4oによって生成された記述キャプションを伴う高品質な4K画像で構成されている。
さらに,超高解像度画像の直接生成のための革新的なフレームワークであるDiffusion-4Kを提案する。
提案手法は,高解像度画像の高精細度化と高精細度化を図り,高精細度画像の高精細化を図り,フォトリアリスティックな4Kデータによる直接トレーニングを容易にするために,SC-VAE(Scale Consistent Variational Auto-Encoder)とWLF(Latent Fine-tuning)を併用する。
この方法は様々な潜伏拡散モデルに適用でき、高精細な4K画像の合成に有効であることを示す。
さらに,FID,Aesthetics,CLIPScoreなどの包括的尺度とともに,局所パッチにおけるテクスチャの豊かさと細かな詳細さを評価するために,GLCMスコアと圧縮率という新しい指標を提案し,超高解像度画像合成の徹底的かつ多面的評価を可能にした。
その結果、Diffusion-4Kは超高解像度画像合成において、特に最先端の大規模拡散モデル(例えばFlux-12B)によって駆動される場合、優れた性能を達成する。
ソースコードはhttps://github.com/zhang0jhon/diffusion-4k.comで公開されている。
関連論文リスト
- Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models [21.46605047406198]
Diffusion-4Kはテキストと画像の拡散モデルを用いた直接超高解像度画像合成のための新しいフレームワークである。
超高解像度画像生成のための総合ベンチマークであるAesthetic-4Kを構築した。
様々な潜伏拡散モデルに適用可能な4K画像を用いた直接訓練のためのウェーブレットに基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T05:25:07Z) - Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models [48.87160158792048]
本稿では,高分解能CTボリュームをメモリ効率よく合成できるCA-LDM(Cascaded amortized Latent diffusion model)を提案する。
公開高解像度OCTデータセットを用いた実験により、我々の合成データは、既存の手法の能力を超越した、現実的な高解像度かつグローバルな特徴を持つことが示された。
論文 参考訳(メタデータ) (2024-05-26T10:58:22Z) - Probabilistic-based Feature Embedding of 4-D Light Fields for
Compressive Imaging and Denoising [62.347491141163225]
4次元光電場(LF)は、効率的で効果的な機能埋め込みを実現する上で大きな課題となる。
様々な低次元畳み込みパターンを組み立てることで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。
実世界および合成4次元LF画像において,本手法の有意な優位性を実証した。
論文 参考訳(メタデータ) (2023-06-15T03:46:40Z) - 4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions [19.380248980850727]
超高分解能の難易度シナリオにおいて、高忠実度ビュー合成を追求するために、4K-NeRFという新規で効果的なフレームワークを提案する。
本稿では,高頻度詳細回復のために線量相関を探索し,この問題に対処する。
提案手法は, 4K超高分解能シナリオにおいて, 最新のNeRF法と比較して, 高周波数細部でのレンダリング品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-09T07:26:49Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。