論文の概要: UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
- arxiv url: http://arxiv.org/abs/2511.18050v1
- Date: Sat, 22 Nov 2025 13:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.601444
- Title: UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
- Title(参考訳): UltraFlux: さまざまなアスペクト比で高品質なネイティブ4Kテキスト・画像生成のためのデータモデル共設計
- Authors: Tian Ye, Song Fei, Lei Zhu,
- Abstract要約: 我々は、MultiAspect-4K-1Mで4Kで訓練されたFluxベースのDiTであるUltraFluxを紹介する。
モデル側では、UltraFluxは4Kでのトレーニングウインドウ、周波数、AR対応の位置符号化のためにResonance 2D RoPEとYaRNを結合する。
4096年のAesthetic-EvalベンチマークとマルチAR 4K設定では、UltraFluxはフィデリティ、美学、アライメントのメトリクスで、強力なオープンソースベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 11.829523789114377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion transformers have recently delivered strong text-to-image generation around 1K resolution, but we show that extending them to native 4K across diverse aspect ratios exposes a tightly coupled failure mode spanning positional encoding, VAE compression, and optimization. Tackling any of these factors in isolation leaves substantial quality on the table. We therefore take a data-model co-design view and introduce UltraFlux, a Flux-based DiT trained natively at 4K on MultiAspect-4K-1M, a 1M-image 4K corpus with controlled multi-AR coverage, bilingual captions, and rich VLM/IQA metadata for resolution- and AR-aware sampling. On the model side, UltraFlux couples (i) Resonance 2D RoPE with YaRN for training-window-, frequency-, and AR-aware positional encoding at 4K; (ii) a simple, non-adversarial VAE post-training scheme that improves 4K reconstruction fidelity; (iii) an SNR-Aware Huber Wavelet objective that rebalances gradients across timesteps and frequency bands; and (iv) a Stage-wise Aesthetic Curriculum Learning strategy that concentrates high-aesthetic supervision on high-noise steps governed by the model prior. Together, these components yield a stable, detail-preserving 4K DiT that generalizes across wide, square, and tall ARs. On the Aesthetic-Eval at 4096 benchmark and multi-AR 4K settings, UltraFlux consistently outperforms strong open-source baselines across fidelity, aesthetic, and alignment metrics, and-with a LLM prompt refiner-matches or surpasses the proprietary Seedream 4.0.
- Abstract(参考訳): 拡散変換器は1Kの解像度で強力なテキスト・画像生成を実現しているが、様々なアスペクト比でネイティブ4Kに拡張することで、位置符号化、VAE圧縮、最適化にまたがる障害モードが密結合していることを示す。
これらの要素を分離して処理することは、そのテーブルにかなりの品質を残します。
そこで我々は,データモデルの共同設計の視点を取り入れ,MultiAspect-4K-1M上で4Kでネイティブに訓練されたFluxベースのDiTであるUltraFlux,マルチARカバレッジを制御した1Mイメージ4Kコーパス,バイリンガルキャプション,解像度とAR対応サンプリングのためのリッチなVLM/IQAメタデータを導入する。
モデル側, UltraFlux カップルについて
(i)YaRNと共振2D RoPEによる4Kでのトレーニングウインドウ、周波数、AR対応位置符号化
(二 簡易かつ非逆行なVAEポストトレーニング方式で、4K復元精度を向上させること。)
三 時差と周波数帯の勾配を再バランスさせるSNR対応フーバーウェーブレット目標
(4) 先行モデルによるハイノイズステップに高度に審美的指導を集中させる段階的美学学習戦略。
これらのコンポーネントを合わせて、4K DiTを安定して保存し、広角、四角、高さのARをまたいで一般化する。
4096年のAesthetic-EvalベンチマークとマルチAR 4K設定では、UltraFluxはフィデリティ、美学、アライメントの指標で常に強力なオープンソースベースラインを上回り、LCMではプロプライエタリなSeedream 4.0を即時改善または超えている。
関連論文リスト
- Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - HiMat: DiT-based Ultra-High Resolution SVBRDF Generation [26.081964370337943]
HiMatは、効率的な4K SVBRDF生成に適した拡散ベースのフレームワークである。
CrossStitchは軽量な畳み込みモジュールで、グローバルな注目を集めるコストを伴わずに、クロスマップの一貫性を強制する。
論文 参考訳(メタデータ) (2025-08-09T15:16:58Z) - 4KAgent: Agentic Any Image to 4K Super-Resolution [62.99433518118836]
我々は、任意の画像を4K解像度にスケールアップするために設計された超高解像度のジェネラリストシステムである4KAgentを提示する。
4KAgentは,(1)ベズークのユースケースに基づいて4KAgentパイプラインをカスタマイズするモジュールであるプロファイリング,(2)画像品質評価の専門家とともに視覚言語モデルを活用して入力画像を分析し,調整された復元計画を作成するパーセプションエージェント,(3)各ステップの最適出力を選択するための品質駆動混合ポリシーに従って計画を実行するリカバリエージェント,の3つのコアコンポーネントから構成される。
われわれは4kagentを厳格に評価する
論文 参考訳(メタデータ) (2025-07-09T17:59:19Z) - Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation [21.46605047406198]
Aesthetic-4Kデータセットは、超高解像度画像合成に関する包括的な研究のためにキュレートされている。
Diffusion-4Kは超高解像度画像の直接生成のための革新的なフレームワークである。
論文 参考訳(メタデータ) (2025-06-02T05:19:40Z) - Scaling Vision Pre-Training to 4K Resolution [120.32767371797578]
視力トレーニングを4K解像度にスケールアップするPS3を,ほぼ一定コストで導入する。
グローバル表現に関する対照的な学習の代わりに、PS3はローカル領域を選択的に処理することで事前訓練される。
PS3は低解像度でグローバル画像をエンコードし、局所的な高解像度領域を選択的に処理できる。
論文 参考訳(メタデータ) (2025-03-25T17:58:37Z) - Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models [21.46605047406198]
Diffusion-4Kはテキストと画像の拡散モデルを用いた直接超高解像度画像合成のための新しいフレームワークである。
超高解像度画像生成のための総合ベンチマークであるAesthetic-4Kを構築した。
様々な潜伏拡散モデルに適用可能な4K画像を用いた直接訓練のためのウェーブレットに基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T05:25:07Z) - Probabilistic-based Feature Embedding of 4-D Light Fields for
Compressive Imaging and Denoising [62.347491141163225]
4次元光電場(LF)は、効率的で効果的な機能埋め込みを実現する上で大きな課題となる。
様々な低次元畳み込みパターンを組み立てることで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。
実世界および合成4次元LF画像において,本手法の有意な優位性を実証した。
論文 参考訳(メタデータ) (2023-06-15T03:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。