論文の概要: CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution
- arxiv url: http://arxiv.org/abs/2412.11609v1
- Date: Mon, 16 Dec 2024 09:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:50:00.300914
- Title: CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution
- Title(参考訳): CLIP-SR:超解像のための協調言語と画像処理
- Authors: Bingwen Hu, Heng Liu, Zhedong Zheng, Ping Liu,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は高度な画像超解像(SR)を持つ
ほとんどのCNNベースのメソッドはピクセルベースの変換のみに依存しており、アーティファクトやぼやけにつながっている。
テキストのセマンティックスと視覚的特徴を組み合わせたマルチモーダルなセマンティックエンハンスメント手法を提案する。
- 参考スコア(独自算出の注目度): 21.843398350371867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have advanced Image Super-Resolution (SR), but most CNN-based methods rely solely on pixel-based transformations, often leading to artifacts and blurring, particularly with severe downsampling (e.g., 8x or 16x). Recent text-guided SR methods attempt to leverage textual information for enhanced detail, but they frequently struggle with effective alignment, resulting in inconsistent semantic coherence. To address these limitations, we introduce a multi-modal semantic enhancement approach that combines textual semantics with visual features, effectively tackling semantic mismatches and detail loss in highly degraded LR images. Our proposed multi-modal collaborative framework enables the production of realistic and high-quality SR images at significant up-scaling factors. The framework integrates text and image inputs, employing a prompt predictor, Text-Image Fusion Block (TIFBlock), and Iterative Refinement Module alongside CLIP (Contrastive Language-Image Pretraining) features to guide a progressive enhancement process with fine-grained alignment. This alignment produces high-resolution outputs with crisp details and semantic coherence, even at large scaling factors. Through extensive comparative experiments and ablation studies, we validate the effectiveness of our approach. Additionally, by incorporating textual semantic guidance, our technique enables a degree of super-resolution editability while maintaining semantic coherence.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)には高度な画像超解法(SR)があるが、ほとんどのCNNベースの手法はピクセルベースの変換のみに依存しており、アーティファクトやぼやけ、特に厳しいダウンサンプリング(例:8x、16x)を伴っている。
近年のテキスト誘導型SR法では, テキスト情報を利用した詳細化が試みられているが, 効果的なアライメントに苦しむことが多く, 一貫性に欠けるセマンティックコヒーレンスが生じる。
これらの制約に対処するために,テキスト意味論と視覚的特徴を組み合わせたマルチモーダルセマンティックエンハンスメント手法を導入し,高度に劣化したLR画像のセマンティックミスマッチと詳細損失を効果的に処理する。
提案するマルチモーダル協調フレームワークにより,高精細度で高画質なSR画像の生成が可能となる。
このフレームワークはテキストと画像の入力を統合し、プロンプト予測器、テキストイメージフュージョンブロック(TIFBlock)、反復リファインメントモジュールをCLIP(Contrastive Language- Image Pretraining)機能と共に使用し、細かなアライメントでプログレッシブエンハンスメントプロセスを導く。
このアライメントは、大規模なスケーリング要因であっても、鮮明な詳細とセマンティックコヒーレンスで高解像度の出力を生成する。
大規模な比較実験とアブレーション研究を通じて,本手法の有効性を検証した。
さらに,テキスト・セマンティック・ガイダンスを取り入れることで,セマンティック・コヒーレンスを維持しつつ,高分解能な編集が可能となる。
関連論文リスト
- XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。
ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。
拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T04:52:22Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - ESTISR: Adapting Efficient Scene Text Image Super-resolution for
Real-Scenes [25.04435367653037]
シーンテキスト画像超解像(STISR)は、シーンテキストの正確な認識において顕著な改善をもたらした。
本稿では,資源限定配置プラットフォームのための高効率Scene Text Image Super- resolution (ESTISR) ネットワークを提案する。
ESTISRは、実際の実行時間とピークメモリ消費の点で、現在のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-06-04T19:14:44Z) - Improving Scene Text Image Super-resolution via Dual Prior Modulation
Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。
既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。
我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-21T02:59:37Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。