論文の概要: UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset
- arxiv url: http://arxiv.org/abs/2510.20661v1
- Date: Thu, 23 Oct 2025 15:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.24423
- Title: UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset
- Title(参考訳): UltraHR-100K:大規模高画質データセットによるUHR画像合成の強化
- Authors: Chen Zhao, En Ci, Yunzhe Xu, Tiehan Fan, Shanyan Guan, Yanhao Ge, Jian Yang, Ying Tai,
- Abstract要約: textbfUltraHR-100Kは、リッチキャプションを備えた100K UHR画像の高品質なデータセットであり、多様な内容と強力な視覚的忠実度を提供する。
本稿では,T2I拡散モデルにおける細部生成を向上させる周波数認識後学習手法を提案する。
- 参考スコア(独自算出の注目度): 37.878145237462434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-high-resolution (UHR) text-to-image (T2I) generation has seen notable progress. However, two key challenges remain : 1) the absence of a large-scale high-quality UHR T2I dataset, and (2) the neglect of tailored training strategies for fine-grained detail synthesis in UHR scenarios. To tackle the first challenge, we introduce \textbf{UltraHR-100K}, a high-quality dataset of 100K UHR images with rich captions, offering diverse content and strong visual fidelity. Each image exceeds 3K resolution and is rigorously curated based on detail richness, content complexity, and aesthetic quality. To tackle the second challenge, we propose a frequency-aware post-training method that enhances fine-detail generation in T2I diffusion models. Specifically, we design (i) \textit{Detail-Oriented Timestep Sampling (DOTS)} to focus learning on detail-critical denoising steps, and (ii) \textit{Soft-Weighting Frequency Regularization (SWFR)}, which leverages Discrete Fourier Transform (DFT) to softly constrain frequency components, encouraging high-frequency detail preservation. Extensive experiments on our proposed UltraHR-eval4K benchmarks demonstrate that our approach significantly improves the fine-grained detail quality and overall fidelity of UHR image generation. The code is available at \href{https://github.com/NJU-PCALab/UltraHR-100k}{here}.
- Abstract(参考訳): 超高分解能(UHR)テキスト・トゥ・イメージ(T2I)生成は顕著な進歩を遂げた。
しかし,1)大規模で高品質なUHR T2Iデータセットの欠如,2)UHRシナリオの詳細な詳細合成のための調整されたトレーニング戦略の欠如,の2つの課題が残っている。
最初の課題に取り組むために、豊富なキャプションを持つ100K UHR画像の高品質データセットである \textbf{UltraHR-100K} を紹介し、多様なコンテンツと強力な視覚的忠実度を提供する。
それぞれの画像は3K解像度を超え、ディテールの豊かさ、コンテンツの複雑さ、美的品質に基づいて厳格にキュレーションされている。
第2の課題に取り組むために,T2I拡散モデルにおける細部生成を改善する周波数認識後学習法を提案する。
特に デザインは
(i)ディテールクリティカルなデノジングステップに焦点を合わせるためのDOTS(textit{Detail-Oriented Timestep Smpling)
(ii)離散フーリエ変換(DFT)を利用して周波数成分をソフトに拘束し、高周波ディテールの保存を促進するSWFR(textit{Soft-Weighting Frequency Regularization)。
提案したUltraHR-eval4Kベンチマークの広範囲な実験により,UHR画像生成の微細なディテール品質と全体的な忠実度を大幅に向上することが示された。
コードは \href{https://github.com/NJU-PCALab/UltraHR-100k}{here} で公開されている。
関連論文リスト
- Missing Fine Details in Images: Last Seen in High Frequencies [17.95197409468585]
本稿では、低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
提案手法は,現在の潜在トークン化器の忠実度ギャップを橋渡しし,実写画像合成における周波数認識最適化の重要性を強調する。
論文 参考訳(メタデータ) (2025-09-05T18:49:08Z) - Stroke-based Cyclic Amplifier: Image Super-Resolution at Arbitrary Ultra-Large Scales [10.209274379479586]
ASISR(Arbitrary-Scale Image Super-Resolution)法では,アップサンプリング係数がトレーニングデータでカバーされる範囲を超えると,性能が著しく低下することが多い。
超大型アップサンプリングタスクのための統一モデルであるStroke-based Cyclic Amplifier (SbCA)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:51:10Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。
後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。
我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文 参考訳(メタデータ) (2024-07-02T11:02:19Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Hyperspectral Image Super-resolution via Deep Progressive Zero-centric
Residual Learning [62.52242684874278]
空間情報とスペクトル情報の相互モダリティ分布が問題となる。
本稿では,PZRes-Netという,新しいテクスライトウェイトなディープニューラルネットワークベースのフレームワークを提案する。
本フレームワークは,高分解能かつテクテッセロ中心の残像を学習し,シーンの空間的詳細を高頻度で表現する。
論文 参考訳(メタデータ) (2020-06-18T06:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。