論文の概要: Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders
- arxiv url: http://arxiv.org/abs/2506.04641v1
- Date: Thu, 05 Jun 2025 05:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.545178
- Title: Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders
- Title(参考訳): 関節分割デコーダを用いた拡散モデルによるテキスト認識実世界の超解像
- Authors: Qiming Hu, Linlong Fan, Yiyan Luo, Yuhang Yu, Xiaojie Guo, Qingnan Fan,
- Abstract要約: 本稿では,テキスト認識と共同セグメンテーションデコーダを統合した新しい拡散型SRフレームワークTADiSRを紹介する。
本研究では,高精細なフルイメージのテキストマスクを用いた高品質な画像合成のための完全なパイプラインを提案する。
提案手法は,超解像におけるテキストの可読性を大幅に向上させ,複数の評価指標にまたがって最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 14.655107789528673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of generative models has significantly advanced image super-resolution (SR) in handling real-world degradations. However, they often incur fidelity-related issues, particularly distorting textual structures. In this paper, we introduce a novel diffusion-based SR framework, namely TADiSR, which integrates text-aware attention and joint segmentation decoders to recover not only natural details but also the structural fidelity of text regions in degraded real-world images. Moreover, we propose a complete pipeline for synthesizing high-quality images with fine-grained full-image text masks, combining realistic foreground text regions with detailed background content. Extensive experiments demonstrate that our approach substantially enhances text legibility in super-resolved images, achieving state-of-the-art performance across multiple evaluation metrics and exhibiting strong generalization to real-world scenarios. Our code is available at \href{https://github.com/mingcv/TADiSR}{here}.
- Abstract(参考訳): 生成モデルの導入により、実世界の劣化に対処する上で、画像超解像(SR)が大幅に進歩した。
しかし、それらはしばしばフィデリティに関連する問題を引き起こし、特にテキスト構造を歪ませる。
本稿では,テキスト認識と共同セグメンテーションデコーダを統合した拡散型SRフレームワークTADiSRを紹介する。
さらに,高精細なフルイメージのテキストマスクで高品質な画像を合成するための完全なパイプラインを提案し,現実的な前景テキスト領域と詳細な背景コンテンツを組み合わせた。
大規模な実験により,本手法は超解像におけるテキストの可読性を大幅に向上させ,複数の評価指標にまたがる最先端性能を実現し,実世界のシナリオへの強力な一般化を示す。
私たちのコードは \href{https://github.com/mingcv/TADiSR}{here} で利用可能です。
関連論文リスト
- TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance [24.242452422416438]
我々は,多言語テキスト画像超解法に特化して設計された多モーダル拡散モデルであるTextSRを紹介する。
テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルが効果的に超解像過程を導出する。
TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定します。
論文 参考訳(メタデータ) (2025-05-29T05:40:35Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。