論文の概要: Does Diffusion Beat GAN in Image Super Resolution?
- arxiv url: http://arxiv.org/abs/2405.17261v1
- Date: Mon, 27 May 2024 15:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:43:44.325551
- Title: Does Diffusion Beat GAN in Image Super Resolution?
- Title(参考訳): 拡散は画像の超解像にGANを上回るか?
- Authors: Denis Kuznedelev, Valerii Startsev, Daniil Shlenskii, Sergey Kastryulin,
- Abstract要約: 本稿では,GANモデルを用いてDiffusionモデルに匹敵する結果が得られることを示す。
テキストコンディショニングや拡張などの設計選択がISRモデルの性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 4.196273175812082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a prevalent opinion in the recent literature that Diffusion-based models outperform GAN-based counterparts on the Image Super Resolution (ISR) problem. However, in most studies, Diffusion-based ISR models were trained longer and utilized larger networks than the GAN baselines. This raises the question of whether the superiority of Diffusion models is due to the Diffusion paradigm being better suited for the ISR task or if it is a consequence of the increased scale and computational resources used in contemporary studies. In our work, we compare Diffusion-based and GAN-based Super Resolution under controlled settings, where both approaches are matched in terms of architecture, model and dataset size, and computational budget. We show that a GAN-based model can achieve results comparable to a Diffusion-based model. Additionally, we explore the impact of design choices such as text conditioning and augmentation on the performance of ISR models, showcasing their effect on several downstream tasks. We will release the inference code and weights of our scaled GAN.
- Abstract(参考訳): 最近の文献では、拡散に基づくモデルは、画像超解像(ISR)問題において、GANベースのモデルよりも優れているという意見が有力である。
しかし、ほとんどの研究では拡散型ISRモデルはGANベースラインよりも長く訓練され、より大きなネットワークを利用した。
これにより、拡散モデルの優越性は、拡散パラダイムがISRタスクに適しているか、あるいはそれが現代の研究で使われるスケールと計算資源の増加の結果であるのかという疑問が提起される。
我々の研究では、DiffusionベースのスーパーレゾリューションとGANベースのスーパーレゾリューションを比較し、アーキテクチャ、モデル、データセットサイズ、計算予算の両アプローチが一致している。
本稿では,GANモデルを用いてDiffusionモデルに匹敵する結果が得られることを示す。
さらに、テキストコンディショニングや拡張などの設計選択がISRモデルの性能に及ぼす影響について検討し、下流タスクへの影響を示す。
スケールしたGANの推論コードと重みを公開します。
関連論文リスト
- Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DifAugGAN: A Practical Diffusion-style Data Augmentation for GAN-based
Single Image Super-resolution [88.13972071356422]
本稿では,DifAugGAN として知られる GAN ベースの画像超解像法(SR) のための拡散型データ拡張手法を提案する。
それは、訓練中の判別器の校正を改善するために、生成拡散モデルに拡散過程を適用することを含む。
我々のDifAugGANは、現在のGANベースのSISR手法のプラグ・アンド・プレイ戦略であり、判別器の校正を改善し、SR性能を向上させることができる。
論文 参考訳(メタデータ) (2023-11-30T12:37:53Z) - HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。
RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。
MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文 参考訳(メタデータ) (2023-11-29T11:01:38Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - Flow Field Reconstructions with GANs based on Radial Basis Functions [19.261773760183196]
2つの放射状基底関数に基づくGAN(RBF-GANとRBFC-GAN)が回帰と生成のために提案されている。
平均二乗誤差 (MSE) と平均二乗誤差 (MSPE) の両方を用いて, RBF-GAN と RBFC-GAN の性能は GANs/cGAN よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-11T11:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。