論文の概要: CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution
- arxiv url: http://arxiv.org/abs/2412.11609v2
- Date: Tue, 25 Mar 2025 08:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:14:08.970978
- Title: CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution
- Title(参考訳): CLIP-SR:超解像のための協調言語と画像処理
- Authors: Bingwen Hu, Heng Liu, Zhedong Zheng, Ping Liu,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、画像超解像(SR)を大幅に進歩させた
ほとんどのCNNベースのメソッドはピクセルベースの変換のみに依存しており、アーティファクトやぼやけにつながっている。
テキストのセマンティックスと視覚的特徴を統合するマルチモーダルなセマンティックエンハンスメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.843398350371867
- License:
- Abstract: Convolutional Neural Networks (CNNs) have significantly advanced Image Super-Resolution (SR), yet most CNN-based methods rely solely on pixel-based transformations, often leading to artifacts and blurring, particularly under severe downsampling rates (\eg, 8$\times$ or 16$\times$). The recently developed text-guided SR approaches leverage textual descriptions to enhance their detail restoration capabilities but frequently struggle with effectively performing alignment, resulting in semantic inconsistencies. To address these challenges, we propose a multi-modal semantic enhancement framework that integrates textual semantics with visual features, effectively mitigating semantic mismatches and detail losses in highly degraded low-resolution (LR) images. Our method enables realistic, high-quality SR to be performed at large upscaling factors, with a maximum scaling ratio of 16$\times$. The framework integrates both text and image inputs using the prompt predictor, the Text-Image Fusion Block (TIFBlock), and the Iterative Refinement Module, leveraging Contrastive Language-Image Pretraining (CLIP) features to guide a progressive enhancement process with fine-grained alignment. This synergy produces high-resolution outputs with sharp textures and strong semantic coherence, even at substantial scaling factors. Extensive comparative experiments and ablation studies validate the effectiveness of our approach. Furthermore, by leveraging textual semantics, our method offers a degree of super-resolution editability, allowing for controlled enhancements while preserving semantic consistency.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は画像の超解法(SR)を大幅に進歩させたが、ほとんどのCNNベースの手法はピクセルベースの変換にのみ依存しており、アーティファクトやぼやけを招き、特に厳しいダウンサンプリングレート(\eg, 8$\times$, 16$\times$)で処理される。
最近開発されたテキスト誘導型SRアプローチは、テキスト記述を活用して詳細な復元能力を高めるが、効果的にアライメントを行うのにしばしば苦労し、意味的不整合をもたらす。
これらの課題に対処するために,テキストのセマンティックスと視覚的特徴を統合したマルチモーダルなセマンティックエンハンスメントフレームワークを提案し,セマンティックミスマッチを効果的に緩和し,高分解能低解像度(LR)画像の詳細な損失を軽減した。
提案手法は,最大スケーリング比が16$\times$である大規模スケールアップ因子において,現実的で高品質なSRを実現する。
このフレームワークは、プロンプト予測器、テキスト・イメージ・フュージョン・ブロック(TIFBlock)、イテレーティブ・リファインメント・モジュール(Iterative Refinement Module)を使用して、コントラシブ・ランゲージ・イメージ・プレトレーニング(CLIP)機能を活用し、プログレッシブ・エンハンスメント・プロセスをきめ細かなアライメントでガイドする。
この相乗効果は、シャープなテクスチャと強いセマンティックコヒーレンスを持つ高分解能な出力を生成する。
大規模な比較実験とアブレーション研究により,本手法の有効性が検証された。
さらに,テキストのセマンティクスを活用することで,セマンティクスの整合性を保ちながら制御された拡張を可能にする。
関連論文リスト
- HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文 参考訳(メタデータ) (2024-11-27T15:22:44Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Improving Scene Text Image Super-resolution via Dual Prior Modulation
Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。
既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。
我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-21T02:59:37Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。