論文の概要: Enhanced Semantic Extraction and Guidance for UGC Image Super Resolution
- arxiv url: http://arxiv.org/abs/2504.09887v1
- Date: Mon, 14 Apr 2025 05:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:46.956270
- Title: Enhanced Semantic Extraction and Guidance for UGC Image Super Resolution
- Title(参考訳): UGC画像超解像における意味抽出と誘導の強化
- Authors: Yiwen Wang, Ying Liang, Yuxuan Zhang, Xinning Chai, Zhengxue Cheng, Yingsheng Qin, Yucai Yang, Rong Xie, Li Song,
- Abstract要約: 本稿では,拡散フレームワークにセマンティックガイダンスを組み込むことにより,画像超解像に対する新しいアプローチを提案する。
本手法は,野生データセットと合成データセットの劣化の矛盾に対処する。
我々のモデルは、CVIRE 2025Short-form Image Super-Resolution Challengeで2位を獲得した。
- 参考スコア(独自算出の注目度): 18.058473238611725
- License:
- Abstract: Due to the disparity between real-world degradations in user-generated content(UGC) images and synthetic degradations, traditional super-resolution methods struggle to generalize effectively, necessitating a more robust approach to model real-world distortions. In this paper, we propose a novel approach to UGC image super-resolution by integrating semantic guidance into a diffusion framework. Our method addresses the inconsistency between degradations in wild and synthetic datasets by separately simulating the degradation processes on the LSDIR dataset and combining them with the official paired training set. Furthermore, we enhance degradation removal and detail generation by incorporating a pretrained semantic extraction model (SAM2) and fine-tuning key hyperparameters for improved perceptual fidelity. Extensive experiments demonstrate the superiority of our approach against state-of-the-art methods. Additionally, the proposed model won second place in the CVPR NTIRE 2025 Short-form UGC Image Super-Resolution Challenge, further validating its effectiveness. The code is available at https://github.c10pom/Moonsofang/NTIRE-2025-SRlab.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)画像の実際の劣化と合成劣化の相違により、従来の超解像法は効率的な一般化に苦慮し、現実の歪みをモデル化するためのより堅牢なアプローチを必要とする。
本稿では, セマンティックガイダンスを拡散フレームワークに組み込むことにより, UGC画像の超解像に対する新しいアプローチを提案する。
本手法は,LSDIRデータセット上の劣化過程を個別にシミュレーションし,それらを公式なペア化トレーニングセットと組み合わせることで,野生データセットと合成データセットの劣化の矛盾に対処する。
さらに、事前訓練された意味抽出モデル(SAM2)と微調整キーハイパーパラメータを組み込むことにより、劣化除去と詳細生成を向上し、知覚の忠実度を向上させる。
大規模な実験は、最先端の手法に対する我々のアプローチの優位性を実証している。
さらに、提案されたモデルはCVPR NTIRE 2025ショートフォームのUGC Image Super-Resolution Challengeで2位を獲得し、その有効性を検証した。
コードはhttps://github.c10pom/Moonsofang/NTIRE-2025-SRlabで公開されている。
関連論文リスト
- Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - Content-decoupled Contrastive Learning-based Implicit Degradation Modeling for Blind Image Super-Resolution [33.16889233975723]
急激な劣化モデルに基づくブラインド・スーパーレゾリューション(SR)は、コミュニティで注目を集めている。
本稿では,CdCL(Content-decoupled Contrastive Learning-based blind image super- resolution)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-10T04:51:43Z) - Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution [38.79439380482431]
実世界の超解像(RWSR)は低分解能入力における未知の劣化に直面している。
既存の手法では、学習インプットの複雑な合成拡張を通じて視覚一般モデルを学習することでこの問題にアプローチする。
実世界の劣化に対する教師なしRWSRに対処するための,新しい相互距離蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-10T01:46:40Z) - IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution [2.1561701531034414]
近年, 複合核融合注意変換器 (CFAT) は, 従来のSOTAモデルよりも高画質である。
本稿では,実世界の画像超解像における変換器の性能を効果的に活用するために,CFATモデルを取り入れた新しいGANベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T20:21:26Z) - DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion [27.52552274944687]
低解像度画像のコンテンツや劣化を認識する拡散モデルの能力を高める新しい2段階の劣化認識フレームワークを提案する。
最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。
第2段階では、分解対応モジュールを単純化されたControlNetに統合し、様々な劣化への柔軟な適応を可能にします。
論文 参考訳(メタデータ) (2024-03-31T12:07:04Z) - CasSR: Activating Image Power for Real-World Image Super-Resolution [24.152495730507823]
超解像のためのカスケード拡散法CasSRは、高精細でリアルな画像を生成するために設計された新しい方法である。
低解像度画像からの情報の抽出を最適化するカスケード制御可能な拡散モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T03:59:43Z) - LLDiffusion: Learning Degradation Representations in Diffusion Models
for Low-Light Image Enhancement [118.83316133601319]
現在の低照度画像強調(LLIE)の深層学習法は、通常、ペア化されたデータから学んだピクセルワイドマッピングに依存している。
本稿では,拡散モデルを用いたLLIEの劣化認識学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T07:22:51Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。