論文の概要: InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
- arxiv url: http://arxiv.org/abs/2509.10441v1
- Date: Fri, 12 Sep 2025 17:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.189505
- Title: InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis
- Title(参考訳): InfGen: スケーラブルな画像合成のための分解能に依存しないパラダイム
- Authors: Tao Han, Wanghan Xu, Junchao Gong, Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai,
- Abstract要約: 現在の拡散モデルでは、解像度で計算要求が2倍に増加し、4K画像生成が100秒以上遅れる。
本稿では, 任意の解像度画像を1ステップ生成器を用いて, コンパクトなラテントで復号する手法を提案する。
InfGenは、4K画像生成時間を10秒未満にカットしながら、任意の高解像度の時代に多くのモデルを改善することができる。
- 参考スコア(独自算出の注目度): 51.81849724354083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arbitrary resolution image generation provides a consistent visual experience across devices, having extensive applications for producers and consumers. Current diffusion models increase computational demand quadratically with resolution, causing 4K image generation delays over 100 seconds. To solve this, we explore the second generation upon the latent diffusion models, where the fixed latent generated by diffusion models is regarded as the content representation and we propose to decode arbitrary resolution images with a compact generated latent using a one-step generator. Thus, we present the \textbf{InfGen}, replacing the VAE decoder with the new generator, for generating images at any resolution from a fixed-size latent without retraining the diffusion models, which simplifies the process, reducing computational complexity and can be applied to any model using the same latent space. Experiments show InfGen is capable of improving many models into the arbitrary high-resolution era while cutting 4K image generation time to under 10 seconds.
- Abstract(参考訳): 任意解像度画像生成はデバイス間で一貫した視覚的体験を提供し、プロデューサとコンシューマーに広範な応用を提供する。
現在の拡散モデルでは、解像度で計算要求が2倍に増加し、4K画像生成が100秒以上遅れる。
そこで我々は,拡散モデルによって生成された固定潜像をコンテンツ表現とみなし,任意の解像度画像を1ステップ生成器を用いてコンパクトに生成した潜像で復号する手法を提案する。
そこで我々は,VAEデコーダを新しいジェネレータに置き換えた \textbf{InfGen} を提案する。このデコーダは,拡散モデルを再トレーニングすることなく,任意の解像度で画像を生成できる。
実験によると、InfGenは4K画像生成時間を10秒未満にカットしながら、多くのモデルを任意の高解像度時代へと改善することができる。
関連論文リスト
- One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - Pyramidal Denoising Diffusion Probabilistic Models [43.9925721757248]
位置埋め込みを訓練した単一スコア関数を用いて高分解能画像を生成する新しいピラミッド拡散モデルを提案する。
これにより、画像生成のための時間効率のサンプリングが可能になり、限られたリソースでトレーニングする際のバッチサイズの問題も解決できる。
論文 参考訳(メタデータ) (2022-08-03T06:26:18Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。