論文の概要: Fine-structure Preserved Real-world Image Super-resolution via Transfer VAE Training
- arxiv url: http://arxiv.org/abs/2507.20291v1
- Date: Sun, 27 Jul 2025 14:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.374509
- Title: Fine-structure Preserved Real-world Image Super-resolution via Transfer VAE Training
- Title(参考訳): トランスファーVAEトレーニングによる微細構造保存実世界の超解像
- Authors: Qiaosi Yi, Shuai Li, Rongyuan Wu, Lingchen Sun, Yuhui Wu, Lei Zhang,
- Abstract要約: 我々は、事前訓練されたUNetに適応しつつ、8$times$ダウンサンプルのVAEを4$times$1に転送するためのTransfer VAE Training(TVT)戦略を提案する。
TVT戦略は、新しいエンコーダとデコーダのペアを元のVAEラテント空間と整合させ、画像の細部を拡大する。
- 参考スコア(独自算出の注目度): 14.058527210122831
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Impressive results on real-world image super-resolution (Real-ISR) have been achieved by employing pre-trained stable diffusion (SD) models. However, one critical issue of such methods lies in their poor reconstruction of image fine structures, such as small characters and textures, due to the aggressive resolution reduction of the VAE (eg., 8$\times$ downsampling) in the SD model. One solution is to employ a VAE with a lower downsampling rate for diffusion; however, adapting its latent features with the pre-trained UNet while mitigating the increased computational cost poses new challenges. To address these issues, we propose a Transfer VAE Training (TVT) strategy to transfer the 8$\times$ downsampled VAE into a 4$\times$ one while adapting to the pre-trained UNet. Specifically, we first train a 4$\times$ decoder based on the output features of the original VAE encoder, then train a 4$\times$ encoder while keeping the newly trained decoder fixed. Such a TVT strategy aligns the new encoder-decoder pair with the original VAE latent space while enhancing image fine details. Additionally, we introduce a compact VAE and compute-efficient UNet by optimizing their network architectures, reducing the computational cost while capturing high-resolution fine-scale features. Experimental results demonstrate that our TVT method significantly improves fine-structure preservation, which is often compromised by other SD-based methods, while requiring fewer FLOPs than state-of-the-art one-step diffusion models. The official code can be found at https://github.com/Joyies/TVT.
- Abstract(参考訳): 実世界の画像超解像(Real-ISR)の印象的な結果は、事前訓練された安定拡散(SD)モデルを用いて達成されている。
しかし、そのような手法の1つの重要な問題は、VAEの高解像度化(例えば)のために、小文字やテクスチャなどの画像微細構造を再構成することができないことである。
SDモデルの8$\times$ downsampling)。
1つの解決策は、拡散率の低下率の低いVAEを採用することであるが、事前訓練されたUNetで潜在機能を適応しつつ、計算コストの増大を緩和することで、新たな課題が生じる。
これらの問題に対処するため,8$\times$ダウンサンプリングされたVAEを4$\times$1に移行し,事前トレーニングされたUNetに対応させるためのTransfer VAE Training(TVT)戦略を提案する。
具体的には、最初のVAEエンコーダの出力機能に基づいて4$\times$デコーダをトレーニングし、新しくトレーニングされたデコーダを固定しながら4$\times$デコーダをトレーニングします。
このようなTVT戦略は、新しいエンコーダとデコーダのペアを元のVAEラテント空間と整合させ、画像の細部を拡大する。
さらに、ネットワークアーキテクチャを最適化し、高精細な特徴を捉えながら計算コストを削減し、コンパクトなVAEと計算効率のUNetを導入する。
実験の結果,TVT法は微細構造保存を著しく改善し,他のSD法ではしばしば損なわれるが,現状の1ステップ拡散モデルに比べてFLOPは少ないことがわかった。
公式コードはhttps://github.com/Joyies/TVTで見ることができる。
関連論文リスト
- Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - Rapid Salient Object Detection with Difference Convolutional Neural Networks [49.838283141381716]
本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。
SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
論文 参考訳(メタデータ) (2025-07-01T20:41:05Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Adversarial Diffusion Compression for Real-World Image Super-Resolution [16.496532580598007]
現実世界の超解像は、劣化した低分解能入力から高分解能画像を再構成することを目的としている。
OSEDiffやS3Diffのような一段階拡散ネットワークはこの問題を緩和するが、それでも高い計算コストがかかる。
本稿では,一段階拡散ネットワークOSEDiffを流線形拡散GANモデルに蒸留することにより,新しいリアルISR法AdcSRを提案する。
論文 参考訳(メタデータ) (2024-11-20T15:13:36Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher [55.22994720855957]
PaGoDAは、ダウンサンプルデータ上でのトレーニング拡散、事前訓練された拡散の蒸留、プログレッシブ超解像という3段階のトレーニングコストを削減した、新しいパイプラインである。
提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを64倍に削減する。
PaGoDAのパイプラインは、遅延空間で直接適用することができ、遅延拡散モデルで事前訓練されたオートエンコーダと共に圧縮を追加する。
論文 参考訳(メタデータ) (2024-05-23T17:39:09Z) - Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior [8.772652777234315]
本稿では,事前学習した拡散モデルの強力な生成能力を生かした,新しい2段階の極端画像圧縮フレームワークを提案する。
本手法は, 視覚的性能を極端に低め, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-29T16:02:38Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。
Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。
我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文 参考訳(メタデータ) (2023-04-25T02:35:54Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Robust Single-Image Super-Resolution via CNNs and TV-TV Minimization [7.538482310185135]
シングルイメージ超解像(英: Single-image Super- resolution)とは、低解像度(LR)画像から高解像度(HR)画像を得る画像の解像度を増大させる過程である。
大規模なトレーニングデータセットを活用することで、現在のCNN(Convolutional Neural Network)は、このタスクにおける最先端のパフォーマンスを実現している。
我々は,CNNの出力をTV-TV最小化と呼ぶ最適化問題で処理後処理し,一貫性を実現することを提案する。
論文 参考訳(メタデータ) (2020-04-02T07:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。