論文の概要: GenDR: Lightning Generative Detail Restorator
- arxiv url: http://arxiv.org/abs/2503.06790v1
- Date: Sun, 09 Mar 2025 22:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:45.882582
- Title: GenDR: Lightning Generative Detail Restorator
- Title(参考訳): GenDR: ライトニング生成詳細レノレータ
- Authors: Yan Wang, Shijie Zhao, Kai Chen, Kexin Zhang, Junlin Li, Li Zhang,
- Abstract要約: 我々は,より大きい潜伏空間を持つテーラー拡散モデルから抽出した生成詳細復元のための1段階拡散モデルGenDRを提案する。
実験の結果,GenDRは定量的な測定値と視覚的忠実度の両方で最先端の性能を達成できた。
- 参考スコア(独自算出の注目度): 18.465568249533966
- License:
- Abstract: Recent research applying text-to-image (T2I) diffusion models to real-world super-resolution (SR) has achieved remarkable success. However, fundamental misalignments between T2I and SR targets result in a dilemma between inference speed and detail fidelity. Specifically, T2I tasks prioritize multi-step inversion to synthesize coherent outputs aligned with textual prompts and shrink the latent space to reduce generating complexity. Contrariwise, SR tasks preserve most information from low-resolution input while solely restoring high-frequency details, thus necessitating sufficient latent space and fewer inference steps. To bridge the gap, we present a one-step diffusion model for generative detail restoration, GenDR, distilled from a tailored diffusion model with larger latent space. In detail, we train a new SD2.1-VAE16 (0.9B) via representation alignment to expand latent space without enlarging the model size. Regarding step-distillation, we propose consistent score identity distillation (CiD) that incorporates SR task-specific loss into score distillation to leverage more SR priors and align the training target. Furthermore, we extend CiD with adversarial learning and representation alignment (CiDA) to enhance perceptual quality and accelerate training. We also polish the pipeline to achieve a more efficient inference. Experimental results demonstrate that GenDR achieves state-of-the-art performance in both quantitative metrics and visual fidelity.
- Abstract(参考訳): 近年,テキスト・トゥ・イメージ(T2I)拡散モデルによる実世界の超解像(SR)への応用が目覚ましい成功を収めている。
しかし、T2I と SR の目標の基本的な相違は、推論速度と細部忠実度の間にジレンマをもたらす。
具体的には、T2Iタスクは、テキストプロンプトに整合したコヒーレントな出力を合成し、遅延空間を縮小し、生成の複雑さを低減するために、マルチステップのインバージョンを優先する。
対照的に、SRタスクは、高頻度の詳細のみを復元しながら、低解像度入力からほとんどの情報を保存し、十分な潜在空間を必要とし、推論ステップを少なくする。
このギャップを埋めるために、我々は、より大きい潜伏空間を持つテーラー拡散モデルから蒸留した、生成詳細復元のための1段階拡散モデルGenDRを提案する。
詳細は、モデルサイズを大きくすることなく遅延空間を拡張するために、新しいSD2.1-VAE16 (0.9B) を表現アライメントを介してトレーニングする。
ステップ蒸留については、SRタスク固有の損失をスコア蒸留に組み込んだ一貫したスコアアイデンティティ蒸留(CiD)を提案し、より多くのSR事前の活用とトレーニング目標の整合を図る。
さらに、CiDを対向学習・表現アライメント(CiDA)で拡張し、知覚的品質を高め、トレーニングを加速する。
さらにパイプラインを洗練して,より効率的な推論を実現しています。
実験の結果,GenDRは定量的な測定値と視覚的忠実度の両方で最先端の性能を達成できた。
関連論文リスト
- TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution [25.994093587158808]
事前訓練されたテキスト-画像拡散モデルが、現実の画像超解像(Real-ISR)タスクにますます応用されている。
拡散モデルの反復的洗練された性質を考えると、既存のアプローチのほとんどは計算的に高価である。
実世界の超高解像度画像に特化して設計された新しい蒸留フレームワークであるTLD-SRを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:01:08Z) - Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。
拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文 参考訳(メタデータ) (2024-10-30T09:14:13Z) - ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution [28.945663118445037]
実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution [18.71638301931374]
画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
論文 参考訳(メタデータ) (2023-12-30T10:22:59Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Towards Lightweight Super-Resolution with Dual Regression Learning [58.98801753555746]
深層ニューラルネットワークは、画像超解像(SR)タスクにおいて顕著な性能を示した。
SR問題は通常不適切な問題であり、既存の手法にはいくつかの制限がある。
本稿では、SRマッピングの可能な空間を削減するために、二重回帰学習方式を提案する。
論文 参考訳(メタデータ) (2022-07-16T12:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。