論文の概要: TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance
- arxiv url: http://arxiv.org/abs/2505.23119v1
- Date: Thu, 29 May 2025 05:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.699644
- Title: TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance
- Title(参考訳): TextSR:多言語OCR誘導による拡散超解法
- Authors: Keren Ye, Ignacio Garcia Dorado, Michalis Raptis, Mauricio Delbracio, Irene Zhu, Peyman Milanfar, Hossein Talebi,
- Abstract要約: 我々は,多言語テキスト画像超解法に特化して設計された多モーダル拡散モデルであるTextSRを紹介する。
テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルが効果的に超解像過程を導出する。
TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定します。
- 参考スコア(独自算出の注目度): 24.242452422416438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in Image Super-Resolution (SR) using diffusion models have shown promise in improving overall image quality, their application to scene text images has revealed limitations. These models often struggle with accurate text region localization and fail to effectively model image and multilingual character-to-shape priors. This leads to inconsistencies, the generation of hallucinated textures, and a decrease in the perceived quality of the super-resolved text. To address these issues, we introduce TextSR, a multimodal diffusion model specifically designed for Multilingual Scene Text Image Super-Resolution. TextSR leverages a text detector to pinpoint text regions within an image and then employs Optical Character Recognition (OCR) to extract multilingual text from these areas. The extracted text characters are then transformed into visual shapes using a UTF-8 based text encoder and cross-attention. Recognizing that OCR may sometimes produce inaccurate results in real-world scenarios, we have developed two innovative methods to enhance the robustness of our model. By integrating text character priors with the low-resolution text images, our model effectively guides the super-resolution process, enhancing fine details within the text and improving overall legibility. The superior performance of our model on both the TextZoom and TextVQA datasets sets a new benchmark for STISR, underscoring the efficacy of our approach.
- Abstract(参考訳): 拡散モデルを用いた画像超解法(SR)の最近の進歩は、全体的な画質向上を約束する一方で、シーンテキスト画像への応用は制限を明らかにしている。
これらのモデルは、しばしば正確なテキスト領域のローカライズに苦慮し、画像と多言語文字対形を効果的にモデル化することができない。
これにより、矛盾、幻覚的なテクスチャの生成、超解決されたテキストの品質の低下につながる。
これらの問題に対処するために,多言語Scene Text Image Super-Resolutionに特化して設計されたマルチモーダル拡散モデルであるTextSRを紹介する。
TextSRはテキスト検出器を利用して画像内のテキスト領域をピンポイントし、光学文字認識(OCR)を用いてこれらの領域から多言語テキストを抽出する。
抽出されたテキスト文字は、UTF-8ベースのテキストエンコーダとクロスアテンションを用いて視覚形状に変換される。
OCRが現実世界のシナリオで不正確な結果をもたらすことがあることを認識して、我々はモデルの堅牢性を高めるための2つの革新的な方法を開発した。
テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルは高解像度化を効果的に導出し,テキスト内の細部の詳細を向上し,全体の可視性を向上させる。
TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定し、我々のアプローチの有効性を裏付けるものである。
関連論文リスト
- Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [17.95994419104427]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。