論文の概要: UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2512.04504v1
- Date: Thu, 04 Dec 2025 06:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.026557
- Title: UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers
- Title(参考訳): Ultra image: Rethinking Resolution Extrapolation in Image Diffusion Transformers
- Authors: Min Zhao, Bokai Yan, Xue Yang, Hongzhou Zhu, Jintao Zhang, Shilong Liu, Chongxuan Li, Jun Zhu,
- Abstract要約: コンテンツ繰り返しと品質劣化に対処する,原則化されたフレームワークであるUltraImageを提案する。
実験の結果、UltraImageは3世代のシナリオでQwen-ImageとFlux(約4K)の先行手法を一貫して上回っていることがわかった。
UltraImageは、1328pのトレーニング解像度から6K*6Kまでの画像を、低解像度のガイダンスなしで生成することができる。
- 参考スコア(独自算出の注目度): 58.37965214608629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image diffusion transformers achieve high-fidelity generation, but struggle to generate images beyond these scales, suffering from content repetition and quality degradation. In this work, we present UltraImage, a principled framework that addresses both issues. Through frequency-wise analysis of positional embeddings, we identify that repetition arises from the periodicity of the dominant frequency, whose period aligns with the training resolution. We introduce a recursive dominant frequency correction to constrain it within a single period after extrapolation. Furthermore, we find that quality degradation stems from diluted attention and thus propose entropy-guided adaptive attention concentration, which assigns higher focus factors to sharpen local attention for fine detail and lower ones to global attention patterns to preserve structural consistency. Experiments show that UltraImage consistently outperforms prior methods on Qwen-Image and Flux (around 4K) across three generation scenarios, reducing repetition and improving visual fidelity. Moreover, UltraImage can generate images up to 6K*6K without low-resolution guidance from a training resolution of 1328p, demonstrating its extreme extrapolation capability. Project page is available at \href{https://thu-ml.github.io/ultraimage.github.io/}{https://thu-ml.github.io/ultraimage.github.io/}.
- Abstract(参考訳): 最近の画像拡散変換器は高忠実度生成を実現するが、コンテンツ繰り返しや品質劣化に苦しむこれらのスケールを超える画像の生成に苦慮している。
本稿では,両問題に対処する原則的フレームワークであるUltraImageを紹介する。
位置埋め込みの周波数ワイド解析により、繰り返しは主周波数の周期性から生じ、その周期はトレーニングの解像度と一致している。
本稿では,外挿後1時間以内に再帰的な主周波数補正を導入する。
さらに, 品質劣化は希薄な注意に起因し, エントロピー誘導型適応的注意集中が提案され, 局部的注意を細部まで高め, より低めの注意パターンをグローバルな注意パターンに割り当て, 構造的整合性を維持する。
実験により、UltraImageは3世代のシナリオでQwen-ImageとFlux(約4K)の先行手法を一貫して上回っており、繰り返しの削減と視覚的忠実度の向上が示されている。
さらにUltraImageは、1328pのトレーニング解像度から6K*6Kまでの画像を、低解像度のガイダンスなしで生成することができる。
プロジェクトページは \href{https://thu-ml.github.io/ultraimage.github.io/}{https://thu-ml.github.io/ultraimage.github.io/} で公開されている。
関連論文リスト
- UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers [42.379492244355454]
本研究では,一定の減衰係数を介し,トレーニングウィンドウ以外のトークンの注意を抑える訓練自由プラグアンドプレイ手法を提案する。
注目すべきは、4倍の補間で前の最良の方法よりも233%、40.5%向上することである。
論文 参考訳(メタデータ) (2025-11-25T09:44:10Z) - NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering [47.442844594442455]
NextFrequency Image Generation (NFIG)は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
NFIGは生成過程を自然な画像構造と整合させる。
これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - Gated Multi-Resolution Transfer Network for Burst Restoration and
Enhancement [75.25451566988565]
低画質の原画像のバーストから空間的精度の高い高画質画像を再構成する新しいGated Multi-Resolution Transfer Network (GMTNet)を提案する。
5つのデータセットに関する詳細な実験分析は、我々のアプローチを検証し、バースト超解像、バーストデノイング、低照度バーストエンハンスメントのための最先端技術を設定する。
論文 参考訳(メタデータ) (2023-04-13T17:54:00Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - On Measuring and Controlling the Spectral Bias of the Deep Image Prior [63.88575598930554]
深層画像は、未学習のネットワークが逆画像問題に対処できることを実証している。
ピークに達するとパフォーマンスが低下するので、いつ最適化を止めるかを決めるにはオラクルが必要です。
これらの問題に対処するために、スペクトルバイアスの観点から先行した深部画像について検討する。
論文 参考訳(メタデータ) (2021-07-02T15:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。