論文の概要: C3-STISR: Scene Text Image Super-resolution with Triple Clues
- arxiv url: http://arxiv.org/abs/2204.14044v1
- Date: Fri, 29 Apr 2022 12:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 14:38:55.507870
- Title: C3-STISR: Scene Text Image Super-resolution with Triple Clues
- Title(参考訳): C3-STISR:3軸超解像
- Authors: Minyi Zhao, Miao Wang, Fan Bai, Bingjia Li, Jie Wang, Shuigeng Zhou
- Abstract要約: Scene text image super- resolution (STISR) は、テキスト認識のための重要な前処理タスクとみなされている。
最近のアプローチでは、認識者のフィードバックを超解像を導く手がかりとして用いている。
超解像誘導のための手がかりとして,認識者のフィードバック,視覚情報,言語情報を共同で活用する新しい手法C3-STISRを提案する。
- 参考スコア(独自算出の注目度): 22.41802601665541
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text image super-resolution (STISR) has been regarded as an important
pre-processing task for text recognition from low-resolution scene text images.
Most recent approaches use the recognizer's feedback as clues to guide
super-resolution. However, directly using recognition clue has two problems: 1)
Compatibility. It is in the form of probability distribution, has an obvious
modal gap with STISR - a pixel-level task; 2) Inaccuracy. it usually contains
wrong information, thus will mislead the main task and degrade super-resolution
performance. In this paper, we present a novel method C3-STISR that jointly
exploits the recognizer's feedback, visual and linguistical information as
clues to guide super-resolution. Here, visual clue is from the images of texts
predicted by the recognizer, which is informative and more compatible with the
STISR task; while linguistical clue is generated by a pre-trained
character-level language model, which is able to correct the predicted texts.
We design effective extraction and fusion mechanisms for the triple cross-modal
clues to generate a comprehensive and unified guidance for super-resolution.
Extensive experiments on TextZoom show that C3-STISR outperforms the SOTA
methods in fidelity and recognition performance. Code is available in
https://github.com/zhaominyiz/C3-STISR.
- Abstract(参考訳): シーンテキスト画像スーパーレゾリューション(stisr)は,低解像度シーンテキスト画像からのテキスト認識において重要な前処理課題である。
最近のアプローチでは、認識者のフィードバックを超解像を導く手がかりとして使っている。
しかし、認識手がかりを直接使うには2つの問題がある。
1)互換性。
これは確率分布の形で、ピクセルレベルのタスクであるSTISRとの明らかなモードギャップを持つ。
2)不正確。
通常、誤った情報を含むため、メインタスクを誤解させ、超解像性能を低下させる。
本稿では,認識者のフィードバック,視覚情報,言語情報を超解像誘導の手がかりとして活用する新しい手法C3-STISRを提案する。
ここでは、認識者が予測したテキストの画像から視覚的手がかりが得られ、これはSTISRタスクと情報的かつより互換性があり、一方言語的手がかりは、予測されたテキストを修正できる事前訓練された文字レベル言語モデルによって生成される。
超解像のための包括的かつ統一的なガイダンスを生成するために,トリプルクロスモーダル手がかりのための効果的な抽出・融合機構を設計する。
TextZoomの大規模な実験により、C3-STISRはSOTA法よりも忠実度と認識性能が優れていることが示された。
コードはhttps://github.com/zhaominyiz/C3-STISRで入手できる。
関連論文リスト
- Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。