論文の概要: Native-Resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2506.03131v1
- Date: Tue, 03 Jun 2025 17:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.453926
- Title: Native-Resolution Image Synthesis
- Title(参考訳): ネイティブリゾリューション画像合成
- Authors: Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang,
- Abstract要約: 本稿では、任意の解像度とアスペクト比で画像の合成を可能にする新しい生成モデリングパラダイムである、ネイティブ解像度画像合成を紹介する。
単一のNiTモデルは、ImageNet-256x256と512x512ベンチマークの両方で最先端のパフォーマンスを同時に達成する。
驚いたことに、先進的な大規模言語モデルで見られる堅牢なゼロショット機能と同様に、ImageNetでのみトレーニングされたNiTは、優れたゼロショット一般化性能を示している。
- 参考スコア(独自算出の注目度): 79.73854557930089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce native-resolution image synthesis, a novel generative modeling paradigm that enables the synthesis of images at arbitrary resolutions and aspect ratios. This approach overcomes the limitations of conventional fixed-resolution, square-image methods by natively handling variable-length visual tokens, a core challenge for traditional techniques. To this end, we introduce the Native-resolution diffusion Transformer (NiT), an architecture designed to explicitly model varying resolutions and aspect ratios within its denoising process. Free from the constraints of fixed formats, NiT learns intrinsic visual distributions from images spanning a broad range of resolutions and aspect ratios. Notably, a single NiT model simultaneously achieves the state-of-the-art performance on both ImageNet-256x256 and 512x512 benchmarks. Surprisingly, akin to the robust zero-shot capabilities seen in advanced large language models, NiT, trained solely on ImageNet, demonstrates excellent zero-shot generalization performance. It successfully generates high-fidelity images at previously unseen high resolutions (e.g., 1536 x 1536) and diverse aspect ratios (e.g., 16:9, 3:1, 4:3), as shown in Figure 1. These findings indicate the significant potential of native-resolution modeling as a bridge between visual generative modeling and advanced LLM methodologies.
- Abstract(参考訳): 本稿では、任意の解像度とアスペクト比で画像の合成を可能にする新しい生成モデリングパラダイムである、ネイティブ解像度画像合成を紹介する。
このアプローチは、従来のテクニックのコア課題である可変長の視覚トークンをネイティブに扱うことによって、従来の固定解像度の2乗画像法の限界を克服する。
そこで本研究では,Native- resolution diffusion Transformer (NiT) について紹介する。
固定フォーマットの制約から解放されたNiTは、幅広い解像度とアスペクト比にまたがる画像から固有の視覚分布を学習する。
特に、単一のNiTモデルはImageNet-256x256と512x512ベンチマークの両方で最先端のパフォーマンスを同時に達成している。
驚いたことに、先進的な大規模言語モデルで見られる堅牢なゼロショット機能と同様に、ImageNetでのみトレーニングされたNiTは、優れたゼロショット一般化性能を示している。
図1に示すように、以前は目に見えない高解像度(例: 1536 x 1536)と多彩なアスペクト比(例: 16:9, 3:1, 4:3)で高忠実度画像を生成することに成功した。
これらの結果は、視覚生成モデルと高度なLCM手法の橋渡しとして、ネイティブレゾリューションモデリングの有意義な可能性を示唆している。
関連論文リスト
- VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Use of triplet loss for facial restoration in low-resolution images [5.448070998907116]
本稿では、個々のアイデンティティを保存した高解像度画像を生成することに焦点を当てた新しいSRモデルFTLGANを提案する。
結果は説得力があり、最先端の最先端モデルよりも21%高いd'の平均値を示す。
論文 参考訳(メタデータ) (2024-09-05T13:42:20Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。