論文の概要: CLIP-aware Domain-Adaptive Super-Resolution
- arxiv url: http://arxiv.org/abs/2505.12391v1
- Date: Sun, 18 May 2025 12:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.206092
- Title: CLIP-aware Domain-Adaptive Super-Resolution
- Title(参考訳): CLIP-Aware Domain-Adaptive Super-Resolution
- Authors: Zhengyang Lu, Qian Xia, Weifan Wang, Feng Wang,
- Abstract要約: この記事では、CLIP対応のドメイン適応型スーパーリゾリューションを紹介する。
単一画像超解像における領域一般化の課題に対処する新しいフレームワークである。
さまざまなドメインにわたる前例のないパフォーマンスと極端なスケーリング要因を実現します。
- 参考スコア(独自算出の注目度): 3.272573199615535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces CLIP-aware Domain-Adaptive Super-Resolution (CDASR), a novel framework that addresses the critical challenge of domain generalization in single image super-resolution. By leveraging the semantic capabilities of CLIP (Contrastive Language-Image Pre-training), CDASR achieves unprecedented performance across diverse domains and extreme scaling factors. The proposed method integrates CLIP-guided feature alignment mechanism with a meta-learning inspired few-shot adaptation strategy, enabling efficient knowledge transfer and rapid adaptation to target domains. A custom domain-adaptive module processes CLIP features alongside super-resolution features through a multi-stage transformation process, including CLIP feature processing, spatial feature generation, and feature fusion. This intricate process ensures effective incorporation of semantic information into the super-resolution pipeline. Additionally, CDASR employs a multi-component loss function that combines pixel-wise reconstruction, perceptual similarity, and semantic consistency. Extensive experiments on benchmark datasets demonstrate CDASR's superiority, particularly in challenging scenarios. On the Urban100 dataset at $\times$8 scaling, CDASR achieves a significant PSNR gain of 0.15dB over existing methods, with even larger improvements of up to 0.30dB observed at $\times$16 scaling.
- Abstract(参考訳): CDASR(CLIP-aware Domain-Adaptive Super-Resolution)は、単一画像の超解像におけるドメイン一般化の重要な課題に対処する新しいフレームワークである。
CLIP(Contrastive Language- Image Pre-training)のセマンティック機能を活用することで、CDASRはさまざまなドメインにわたる前例のないパフォーマンスと極端なスケーリングファクタを実現する。
提案手法は,CLIP誘導型特徴アライメント機構とメタラーニングにインスパイアされた少数ショット適応戦略を統合し,効率的な知識伝達とターゲットドメインへの迅速な適応を可能にする。
カスタムドメイン適応モジュールは、CLIPの機能処理、空間的特徴生成、機能融合を含む、多段階の変換プロセスを通じて、CLIPの機能とスーパーレゾリューション機能を処理する。
この複雑なプロセスは、セマンティック情報を超解像パイプラインに効果的に組み込むことを保証する。
さらに、CDASRは画素単位の再構成、知覚的類似性、セマンティック一貫性を組み合わせた多成分損失関数を採用している。
ベンチマークデータセットに関する大規模な実験は、特に挑戦的なシナリオにおいて、CDASRの優位性を示している。
Urban100データセットの$\times$8スケーリングでは、CDASRは既存のメソッドよりも0.15dBのPSNRゲインを達成し、$\times$16スケーリングで0.30dBまで改善された。
関連論文リスト
- C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。
このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。
さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文 参考訳(メタデータ) (2025-03-17T21:52:18Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Efficient Model Agnostic Approach for Implicit Neural Representation
Based Arbitrary-Scale Image Super-Resolution [5.704360536038803]
単一の画像超解像(SISR)は、主に深層畳み込みネットワークによって大きく進歩した。
従来のネットワークは、画像を一定のスケールにスケールアップすることに限定されており、任意のスケールのイメージを生成するために暗黙の神経機能を利用することになる。
我々は,任意のスケールで超解像を実現する,新しい,効率的なフレームワークであるMixture of Experts Implicit Super-Resolution(MoEISR)を導入する。
論文 参考訳(メタデータ) (2023-11-20T05:34:36Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Efficient and Degradation-Adaptive Network for Real-World Image
Super-Resolution [28.00231586840797]
実世界の画像超解像(Real-ISR)は、実世界の画像の未知の複雑な劣化のために難しい課題である。
近年のReal-ISRの研究は、画像劣化空間をモデル化することによって大きな進歩を遂げている。
本稿では,各入力画像の劣化を推定してパラメータを適応的に指定する,効率的な劣化適応型超解像ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-27T05:59:13Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。