論文の概要: Eliminating VAE for Fast and High-Resolution Generative Detail Restoration
- arxiv url: http://arxiv.org/abs/2602.10630v1
- Date: Wed, 11 Feb 2026 08:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.585948
- Title: Eliminating VAE for Fast and High-Resolution Generative Detail Restoration
- Title(参考訳): 高速・高分解能デテール修復のためのVAEの除去
- Authors: Yan Wang, Shijie Zhao, Junlin Li, Li Zhang,
- Abstract要約: 拡散モデルは、現実世界の超解像(SR)タスクにおいて顕著なブレークスルーを達成した。
GenDRのような最近の研究は、ステップ番号を1に最小化するためにステップ蒸留を採用している。
GenDR-Pixは4K画像を1秒と6GBで復元できる。
- 参考スコア(独自算出の注目度): 19.313842956605356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have attained remarkable breakthroughs in the real-world super-resolution (SR) task, albeit at slow inference and high demand on devices. To accelerate inference, recent works like GenDR adopt step distillation to minimize the step number to one. However, the memory boundary still restricts the maximum processing size, necessitating tile-by-tile restoration of high-resolution images. Through profiling the pipeline, we pinpoint that the variational auto-encoder (VAE) is the bottleneck of latency and memory. To completely solve the problem, we leverage pixel-(un)shuffle operations to eliminate the VAE, reversing the latent-based GenDR to pixel-space GenDR-Pix. However, upscale with x8 pixelshuffle may induce artifacts of repeated patterns. To alleviate the distortion, we propose a multi-stage adversarial distillation to progressively remove the encoder and decoder. Specifically, we utilize generative features from the previous stage models to guide adversarial discrimination. Moreover, we propose random padding to augment generative features and avoid discriminator collapse. We also introduce a masked Fourier space loss to penalize the outliers of amplitude. To improve inference performance, we empirically integrate a padding-based self-ensemble with classifier-free guidance to improve inference scaling. Experimental results show that GenDR-Pix performs 2.8x acceleration and 60% memory-saving compared to GenDR with negligible visual degradation, surpassing other one-step diffusion SR. Against all odds, GenDR-Pix can restore 4K image in only 1 second and 6GB.
- Abstract(参考訳): 拡散モデルは、遅い推論とデバイスへの高い需要にもかかわらず、現実世界の超解像(SR)タスクにおいて驚くべきブレークスルーを達成した。
推論を加速するため、GenDRのような最近の研究では、ステップ番号を1に最小化するためにステップ蒸留を採用している。
しかし、メモリ境界は最大処理サイズを制限し、高解像度画像のタイル・バイ・タイルの復元を必要とする。
パイプラインのプロファイリングを通じて、変動自動エンコーダ(VAE)がレイテンシとメモリのボトルネックであることを指摘します。
この問題を完全に解決するために、我々はピクセルシャッフル演算を活用してVAEを除去し、潜伏型GenDRをピクセル空間GenDR-Pixに反転させる。
しかし、x8ピクセルシャッフルのアップスケールは繰り返しパターンのアーティファクトを誘導する可能性がある。
歪みを軽減するため,エンコーダとデコーダを段階的に除去する多段逆蒸留法を提案する。
具体的には、前段階モデルから生成した特徴を利用して、敵対的差別を導出する。
さらに、生成的特徴を増大させ、識別器の崩壊を避けるためにランダムなパディングを提案する。
また、振幅の外れ値にペナルティを与えるために、マスク付きフーリエ空間損失を導入する。
推論性能を向上させるため,提案手法では,パディングに基づく自己アンサンブルと分類器のないガイダンスを経験的に統合し,推論スケーリングを改善する。
実験の結果、GenDR-Pixは2.8倍の加速と60%のメモリ節約を行い、他の1ステップの拡散SRを上回った。
GenDR-Pixは4K画像を1秒と6GBで復元できる。
関連論文リスト
- DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。
蒸留を用いて, 拡散復号器の性能を効率よく再現する。
これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文 参考訳(メタデータ) (2025-10-06T15:57:31Z) - Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。
本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-09T13:43:57Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach [17.693287544860638]
事前訓練されたテキスト画像モデルにより画像超解像の潜時拡散が改善した。
ラテントベースの手法では、特徴エンコーダを使用して画像を変換し、コンパクトなラテント空間でSR画像生成を実装する。
遅延空間から画素空間への周波数成分を増大させる周波数補償モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:39:25Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。