論文の概要: PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset
- arxiv url: http://arxiv.org/abs/2605.20147v1
- Date: Tue, 19 May 2026 17:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.558722
- Title: PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset
- Title(参考訳): PixVerve: 大規模高品質データセットでネイティブなUHRイメージ生成を100MPに向上
- Authors: Haojun Chen, Haoyang He, Chengming Xu, Qingdong He, Junwei Zhu, Yabiao Wang, Zhucun Xue, Xianfang Zeng, Zhennan Chen, Xiaobin Hu, Hao Zhao, Yong Liu, Jiangning Zhang, Dacheng Tao,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、最近1Kと2Kの解像度で顕著な進歩を遂げている。
超高分解能(UHR)画像生成は、高分解能コンテンツの不足と複雑さのために大きな課題となる。
PixVerve-95Kは、慎重に設計されたデータパイプラインでキュレートされた高品質でオープンソースのUHR T2Iデータセットである。
- 参考スコア(独自算出の注目度): 93.70328662327375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) models have recently seen notable progress around 1K and 2K resolution. With the extreme desire for better visual experience and the rapid development of imaging technology, the demand for Ultra-High-Resolution (UHR) image generation has grown significantly. However, UHR image generation poses great challenges due to the scarcity and complexity of high-resolution content. In this paper, we first introduce PixVerve-95K, a high-quality, open-source UHR T2I dataset curated with a carefully designed data pipeline, which contains 95K images across diverse scenarios (each image has a minimum pixel-count of 100M) and seven-dimensional annotations. Based on our large-scale image-text dataset, we take a pioneering step to extend various T2I foundation models to native 100MP generation with three training schemes. Finally, leveraging both conventional metrics and multimodal large language model-based assessments, our proposed PixVerve-Bench benchmark establishes a comprehensive evaluation protocol for UHR images encompassing visual quality and semantic alignment. Extensive experimental results on our benchmark and the constructive exploration of training strategies collaboratively provide valuable insights for future breakthroughs.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、最近1Kと2Kの解像度で顕著な進歩を遂げた。
視覚的体験の向上と画像技術の急速な発展を極端に望んで、UHR(Ultra-High-Resolution)画像生成の需要は大きく伸びている。
しかし、高解像度コンテンツの不足と複雑さのため、UHR画像生成は大きな課題を生んでいる。
本稿では, PixVerve-95Kについて紹介する。これは精巧に設計されたデータパイプラインでキュレートされた高品質でオープンソースなUHR T2Iデータセットで, 様々なシナリオ(各画像は最小画素数100M)と7次元アノテーションを含む。
大規模な画像テキストデータセットに基づいて、様々なT2Iファンデーションモデルを3つのトレーニングスキームでネイティブ100MP世代に拡張する先駆的なステップを取ります。
最後に,従来のメトリクスとマルチモーダルな大規模言語モデルに基づく評価を併用したPixVerve-Benchベンチマークにより,視覚的品質とセマンティックアライメントを含むUHR画像の包括的評価プロトコルを確立する。
我々のベンチマークに関する大規模な実験結果と、トレーニング戦略の構築的探索は、今後のブレークスルーに価値ある洞察を共同で提供します。
関連論文リスト
- UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset [37.878145237462434]
textbfUltraHR-100Kは、リッチキャプションを備えた100K UHR画像の高品質なデータセットであり、多様な内容と強力な視覚的忠実度を提供する。
本稿では,T2I拡散モデルにおける細部生成を向上させる周波数認識後学習手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T15:34:53Z) - No Pixel Left Behind: A Detail-Preserving Architecture for Robust High-Resolution AI-Generated Image Detection [15.139983859649922]
High-Resolution Detail-Aggregation Network (HiDA-Net)は、ピクセルが残らないようにする新しいフレームワークである。
HiDA-Netは最先端を実現し、挑戦的なChameleonデータセットでは13%以上、HiRes-50Kでは10%以上の精度向上を実現しています。
論文 参考訳(メタデータ) (2025-08-24T13:03:16Z) - Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。