論文の概要: Scene Text Image Super-resolution based on Text-conditional Diffusion
Models
- arxiv url: http://arxiv.org/abs/2311.09759v1
- Date: Thu, 16 Nov 2023 10:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:54:33.320963
- Title: Scene Text Image Super-resolution based on Text-conditional Diffusion
Models
- Title(参考訳): テキスト条件拡散モデルに基づくシーンテキスト画像の超解像
- Authors: Chihiro Noguchi, Shun Fukuda, Masao Yamanaka
- Abstract要約: シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Text Image Super-resolution (STISR) has recently achieved great success
as a preprocessing method for scene text recognition. STISR aims to transform
blurred and noisy low-resolution (LR) text images in real-world settings into
clear high-resolution (HR) text images suitable for scene text recognition. In
this study, we leverage text-conditional diffusion models (DMs), known for
their impressive text-to-image synthesis capabilities, for STISR tasks. Our
experimental results revealed that text-conditional DMs notably surpass
existing STISR methods. Especially when texts from LR text images are given as
input, the text-conditional DMs are able to produce superior quality
super-resolution text images. Utilizing this capability, we propose a novel
framework for synthesizing LR-HR paired text image datasets. This framework
consists of three specialized text-conditional DMs, each dedicated to text
image synthesis, super-resolution, and image degradation. These three modules
are vital for synthesizing distinct LR and HR paired images, which are more
suitable for training STISR methods. Our experiments confirmed that these
synthesized image pairs significantly enhance the performance of STISR methods
in the TextZoom evaluation.
- Abstract(参考訳): シーンテキスト画像超解像(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
STISRは、現実世界の設定でぼやけた低解像度(LR)テキストイメージを、シーンテキスト認識に適した鮮明な高解像度(HR)テキストイメージに変換することを目的としている。
本研究では,テキストから画像への印象的な合成能力で知られるdms(text-conditional diffusion model)をstisrタスクに活用する。
実験の結果,テキスト条件DMは既存のSTISR法をはるかに上回ることがわかった。
特にLRテキスト画像からのテキストが入力として与えられると、テキスト条件DMは高品質な高解像度テキスト画像を生成することができる。
この機能を利用して、LR-HRペアテキスト画像データセットを合成する新しいフレームワークを提案する。
このフレームワークは3つの特殊なテキスト条件DMで構成され、それぞれがテキスト画像合成、超解像、画像劣化に特化している。
これらの3つのモジュールは、STISR法の訓練に適している異なるLRとHRのペア画像の合成に不可欠である。
実験により,これらの合成画像対はテキストZoom評価におけるSTISR法の性能を大幅に向上させることを確認した。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Text Prior Guided Scene Text Image Super-resolution [11.396781380648756]
Scene Text Image Super- resolution (STISR) は低解像度(LR)シーンの解像度と画質を改善することを目的としている。
我々は、STISRモデルトレーニングにカテゴリテキストを組み込む試みを行っている。
STISRのためのマルチステージテキストガイド付き超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:33Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。