論文の概要: One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation
- arxiv url: http://arxiv.org/abs/2506.02605v1
- Date: Tue, 03 Jun 2025 08:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.484242
- Title: One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation
- Title(参考訳): 視知覚蒸留を用いた1ステップ拡散に基づく実世界の超解像
- Authors: Xue Wu, Jingwei Xin, Zhijun Tu, Jie Hu, Jie Li, Nannan Wang, Xinbo Gao,
- Abstract要約: 画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
- 参考スコア(独自算出の注目度): 53.24542646616045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based models have been widely used in various visual generation tasks, showing promising results in image super-resolution (SR), while typically being limited by dozens or even hundreds of sampling steps. Although existing methods aim to accelerate the inference speed of multi-step diffusion-based SR methods through knowledge distillation, their generated images exhibit insufficient semantic alignment with real images, resulting in suboptimal perceptual quality reconstruction, specifically reflected in the CLIPIQA score. These methods still have many challenges in perceptual quality and semantic fidelity. Based on the challenges, we propose VPD-SR, a novel visual perception diffusion distillation framework specifically designed for SR, aiming to construct an effective and efficient one-step SR model. Specifically, VPD-SR consists of two components: Explicit Semantic-aware Supervision (ESS) and High-Frequency Perception (HFP) loss. Firstly, the ESS leverages the powerful visual perceptual understanding capabilities of the CLIP model to extract explicit semantic supervision, thereby enhancing semantic consistency. Then, Considering that high-frequency information contributes to the visual perception quality of images, in addition to the vanilla distillation loss, the HFP loss guides the student model to restore the missing high-frequency details in degraded images that are critical for enhancing perceptual quality. Lastly, we expand VPD-SR in adversarial training manner to further enhance the authenticity of the generated content. Extensive experiments conducted on synthetic and real-world datasets demonstrate that the proposed VPD-SR achieves superior performance compared to both previous state-of-the-art methods and the teacher model with just one-step sampling.
- Abstract(参考訳): 拡散ベースのモデルは様々な視覚生成タスクで広く使われており、画像超解像(SR)の有望な結果を示しているが、通常、数十から数百のサンプリングステップによって制限されている。
既存の手法は知識蒸留による多段階拡散型SR法の推論速度の向上を目的としているが、生成した画像は実画像とのセマンティックアライメントが不十分であり、特にCLIPIQAスコアに反映された最適視線品質の再構築をもたらす。
これらの手法には、知覚的品質と意味的忠実性に多くの課題がある。
そこで我々は, SR用に設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案し, 有効かつ効率的なワンステップSRモデルの構築を目指している。
具体的には、VPD-SRは2つのコンポーネントで構成されている。 Explicit Semantic-aware Supervision (ESS) と High-Frequency Perception (HFP) である。
まず、ESSはCLIPモデルの強力な視覚知覚理解機能を活用して、明示的なセマンティックインスペクションを抽出し、セマンティックセマンティクスの一貫性を高める。
そして、高頻度情報が画像の視覚的品質に寄与すること、バニラ蒸留損失に加えて、HFP損失は学生モデルに、知覚品質の向上に重要な劣化した画像において、欠落した高周波の詳細を復元するよう誘導する。
最後に、生成したコンテンツの信頼性をさらに高めるために、VPD-SRを敵の訓練方法で拡張する。
合成および実世界のデータセットで実施された大規模な実験により、提案したVPD-SRは、従来の最先端手法と教師モデルの両方と比較して、1段階のサンプリングで優れた性能を発揮することが示された。
関連論文リスト
- One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation [90.84654430620971]
超解像(SR)の拡散モデルは高品質な視覚結果を生成するが、高価な計算コストを必要とする。
本稿では,拡散型SRモデルの1つであるResShiftの新しい蒸留法であるRSDを提案する。
本手法は,学生ネットワークを訓練し,その上で訓練した新しい偽ResShiftモデルが教師モデルと一致するような画像を生成することに基づいている。
論文 参考訳(メタデータ) (2025-03-17T16:44:08Z) - TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution [25.994093587158808]
事前訓練されたテキスト-画像拡散モデルが、現実の画像超解像(Real-ISR)タスクにますます応用されている。
拡散モデルの反復的洗練された性質を考えると、既存のアプローチのほとんどは計算的に高価である。
実世界の超高解像度画像に特化して設計された新しい蒸留フレームワークであるTLD-SRを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:01:08Z) - Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Hierarchical Conditional Flow: A Unified Framework for Image
Super-Resolution and Image Rescaling [139.25215100378284]
画像SRと画像再スケーリングのための統合フレームワークとして階層的条件フロー(HCFlow)を提案する。
HCFlowは、LR画像と残りの高周波成分の分布を同時にモデル化することにより、HRとLR画像ペア間のマッピングを学習する。
さらに性能を高めるために、知覚的損失やGAN損失などの他の損失と、トレーニングで一般的に使用される負の対数類似損失とを組み合わせる。
論文 参考訳(メタデータ) (2021-08-11T16:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。