論文の概要: Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution
- arxiv url: http://arxiv.org/abs/2401.00877v2
- Date: Wed, 25 Sep 2024 03:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:28:28.185886
- Title: Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution
- Title(参考訳): コンテンツ一貫性超解法における拡散モデルの安定性と効率の改善
- Authors: Lingchen Sun, Rongyuan Wu, Jie Liang, Zhengqiang Zhang, Hongwei Yong, Lei Zhang,
- Abstract要約: 画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
- 参考スコア(独自算出の注目度): 18.71638301931374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generative priors of pre-trained latent diffusion models (DMs) have demonstrated great potential to enhance the visual quality of image super-resolution (SR) results. However, the noise sampling process in DMs introduces randomness in the SR outputs, and the generated contents can differ a lot with different noise samples. The multi-step diffusion process can be accelerated by distilling methods, but the generative capacity is difficult to control. To address these issues, we analyze the respective advantages of DMs and generative adversarial networks (GANs) and propose to partition the generative SR process into two stages, where the DM is employed for reconstructing image structures and the GAN is employed for improving fine-grained details. Specifically, we propose a non-uniform timestep sampling strategy in the first stage. A single timestep sampling is first applied to extract the coarse information from the input image, then a few reverse steps are used to reconstruct the main structures. In the second stage, we finetune the decoder of the pre-trained variational auto-encoder by adversarial GAN training for deterministic detail enhancement. Once trained, our proposed method, namely content consistent super-resolution (CCSR),allows flexible use of different diffusion steps in the inference stage without re-training. Extensive experiments show that with 2 or even 1 diffusion step, CCSR can significantly improve the content consistency of SR outputs while keeping high perceptual quality. Codes and models can be found at \href{https://github.com/csslc/CCSR}{https://github.com/csslc/CCSR}.
- Abstract(参考訳): 画像超解像 (SR) 結果の視覚的品質を高めるために, 事前学習型潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
しかし、DMにおけるノイズサンプリングプロセスは、SR出力のランダム性を導入し、生成した内容は異なるノイズサンプルと大きく異なる可能性がある。
多段拡散過程は蒸留法により加速することができるが, 生成能力の制御は困難である。
これらの課題に対処するため、DMとGANのそれぞれの利点を分析し、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANをきめ細かな詳細改善に使用することを提案する。
具体的には,第1段階における一様でないタイムステップサンプリング戦略を提案する。
入力画像から粗い情報を抽出するために、まず1つの時間ステップサンプリングを適用し、その後、いくつかの逆ステップを使用して、主構造を再構築する。
第2段階では,事前学習した変分オートエンコーダのデコーダを逆GAN訓練により微調整し,決定論的詳細化を図る。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
広汎な実験により、CCSRは2または1の拡散ステップにより、高い知覚品質を維持しながら、SR出力のコンテント一貫性を著しく向上させることができることが示された。
コードとモデルは \href{https://github.com/csslc/CCSR}{https://github.com/csslc/CCSR} で見ることができる。
関連論文リスト
- Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。
拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文 参考訳(メタデータ) (2024-10-30T09:14:13Z) - ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution [28.945663118445037]
実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。
セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z) - Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution [52.47005445345593]
BlindDiff は SISR のブラインド劣化に対処するための DM ベースのブラインドSR 手法である。
BlindDiffはMAPベースの最適化をDMにシームレスに統合する。
合成データセットと実世界のデータセットの両方の実験は、BlindDiffが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-15T11:21:34Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Solving Diffusion ODEs with Optimal Boundary Conditions for Better Image Super-Resolution [82.50210340928173]
拡散モデルのランダム性は非効率性と不安定性をもたらすため、SR結果の品質を保証することは困難である。
本稿では,一連の拡散型SR手法の恩恵を受ける可能性を持つプラグアンドプレイサンプリング手法を提案する。
提案手法によりサンプリングされたSR結果の質は, 学習前の拡散ベースSRモデルと同一のランダム性を有する現在の手法でサンプリングされた結果の質より優れる。
論文 参考訳(メタデータ) (2023-05-24T17:09:54Z) - DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for
Hyperspectral Image Restoration [103.79030498369319]
ハイパースペクトル画像復元のための自己教師付き拡散モデルを提案する。
textttDDS2Mは、既存の拡散法と比較して、より強力な一般化能力を持っている。
HSIのノイズ除去、ノイズ除去、様々なHSIの超解像実験は、既存のタスク固有状態よりもtextttDDS2Mの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-03-12T14:57:04Z) - Scalable Deep Compressive Sensing [43.92187349325869]
既存のディープラーニング手法の多くは、異なるサブサンプリング比率のために異なるモデルをトレーニングする。
本研究では,拡張性深部圧縮センシング(SDCS)と呼ばれるフレームワークを開発し,既存のすべてのエンドツーエンド学習モデルの拡張性サンプリングと再構成を行う。
実験の結果,SDCSを用いたモデルでは,良好な性能を維持しながら構造を変更せずにSSRを達成でき,SDCSは他のSSR法よりも優れていた。
論文 参考訳(メタデータ) (2021-01-20T08:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。