論文の概要: One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.10629v1
- Date: Fri, 14 Nov 2025 02:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.966455
- Title: One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models
- Title(参考訳): レンズの超巨大化の一歩:拡散モデルのための高速遅延アップスケールアダプタ
- Authors: Aleksandr Razin, Danil Kazantsev, Ilya Makarov,
- Abstract要約: 本稿では,Latent Upscaler Adapter(LUA)について述べる。
LUAはドロップインコンポーネントとして統合されており、ベースモデルや追加の拡散段階を変更する必要はない。
スケール固有のピクセルシャッフルヘッドを持つ共有Swinスタイルのバックボーンは、2xと4xファクタをサポートし、画像空間SRベースラインと互換性がある。
- 参考スコア(独自算出の注目度): 45.92038137978053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model or additional diffusion stages, and enables high-resolution synthesis through a single feed-forward pass in latent space. A shared Swin-style backbone with scale-specific pixel-shuffle heads supports 2x and 4x factors and remains compatible with image-space SR baselines, achieving comparable perceptual quality with nearly 3x lower decoding and upscaling time (adding only +0.42 s for 1024 px generation from 512 px, compared to 1.87 s for pixel-space SR using the same SwinIR architecture). Furthermore, LUA shows strong generalization across the latent spaces of different VAEs, making it easy to deploy without retraining from scratch for each new decoder. Extensive experiments demonstrate that LUA closely matches the fidelity of native high-resolution generation while offering a practical and efficient path to scalable, high-fidelity image synthesis in modern diffusion pipelines.
- Abstract(参考訳): 拡散モデルは、直接高解像度サンプリングが遅くてコストがかかるため、トレーニング解像度を超えてスケールするのに苦労する一方、ポストホック画像超解像(ISR)は、デコード後の操作によってアーティファクトと追加のレイテンシを導入する。
本稿では、最後のVAEデコードステップの前に、ジェネレータの潜在コードに直接超解像を行う軽量モジュールであるLatent Upscaler Adapter(LUA)を提案する。
LUAはドロップインコンポーネントとして統合され、ベースモデルや追加拡散段階の変更を必要としない。
スケール固有のピクセルシャッフルヘッドを持つ共有スウィンスタイルのバックボーンは、2xと4xの要素をサポートし、画像空間のSRベースラインと互換性があり、ほぼ3倍低いデコードとアップスケーリング時間(512 pxから1024 px の +0.42 s、同じスウィンIRアーキテクチャを使ったピクセル空間SRの 1.87 s)で同等の知覚品質を実現している。
さらに、LUAは異なるVAEの潜在空間をまたいで強力な一般化を示し、新しいデコーダごとにスクラッチから再トレーニングすることなくデプロイが容易である。
広汎な実験により、LUAはネイティブな高解像度生成の忠実さと密に一致し、近代的な拡散パイプラインにおけるスケーラブルで高忠実な画像合成への実践的で効率的な経路を提供する。
関連論文リスト
- High-resolution Photo Enhancement in Real-time: A Laplacian Pyramid Network [73.19214585791268]
本稿では,LLF-LUT++と呼ばれるピラミッドネットワークについて紹介する。
具体的には,ダウンサンプリング画像のグローバル音節特性を活かした画像適応型3D LUTを利用する。
LLF-LUT++は、HDR+データセット上でPSNRが2.64dB改善されただけでなく、4K解像度の画像を1つのGPUでわずか13msで処理することで、さらに削減されている。
論文 参考訳(メタデータ) (2025-10-13T16:52:32Z) - SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。
蒸留を用いて, 拡散復号器の性能を効率よく再現する。
これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文 参考訳(メタデータ) (2025-10-06T15:57:31Z) - InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis [51.81849724354083]
現在の拡散モデルでは、解像度で計算要求が2倍に増加し、4K画像生成が100秒以上遅れる。
本稿では, 任意の解像度画像を1ステップ生成器を用いて, コンパクトなラテントで復号する手法を提案する。
InfGenは、4K画像生成時間を10秒未満にカットしながら、任意の高解像度の時代に多くのモデルを改善することができる。
論文 参考訳(メタデータ) (2025-09-12T17:48:57Z) - Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-09T13:43:57Z) - Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、品質と効率の両方において、潜在モデルと非常に競合することを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach [17.693287544860638]
事前訓練されたテキスト画像モデルにより画像超解像の潜時拡散が改善した。
ラテントベースの手法では、特徴エンコーダを使用して画像を変換し、コンパクトなラテント空間でSR画像生成を実装する。
遅延空間から画素空間への周波数成分を増大させる周波数補償モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。