論文の概要: IFR: Iterative Fusion Based Recognizer For Low Quality Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2108.06166v1
- Date: Fri, 13 Aug 2021 10:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:07:41.126694
- Title: IFR: Iterative Fusion Based Recognizer For Low Quality Scene Text
Recognition
- Title(参考訳): IFR:低品質シーン音声認識のための反復融合型認識装置
- Authors: Zhiwei Jia and Shugong Xu and Shiyi Mu and Yue Tao and Shan Cao and
Zhiyong Chen
- Abstract要約: 高品質なシーンテキスト認識のためのイテレーティブフュージョンベース認識(IFR)を提案する。
IFRには2つのブランチがあり、それぞれ、シーンテキスト認識と低品質のシーンテキストイメージリカバリに焦点を当てている。
2つの枝の特徴表現を強化するために,特徴融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 20.741958198581173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recent works based on deep learning have made progress in improving
recognition accuracy on scene text recognition, how to handle low-quality text
images in end-to-end deep networks remains a research challenge. In this paper,
we propose an Iterative Fusion based Recognizer (IFR) for low quality scene
text recognition, taking advantage of refined text images input and robust
feature representation. IFR contains two branches which focus on scene text
recognition and low quality scene text image recovery respectively. We utilize
an iterative collaboration between two branches, which can effectively
alleviate the impact of low quality input. A feature fusion module is proposed
to strengthen the feature representation of the two branches, where the
features from the Recognizer are Fused with image Restoration branch, referred
to as RRF. Without changing the recognition network structure, extensive
quantitative and qualitative experimental results show that the proposed method
significantly outperforms the baseline methods in boosting the recognition
accuracy of benchmark datasets and low resolution images in TextZoom dataset.
- Abstract(参考訳): ディープラーニングに基づく最近の研究は、シーンのテキスト認識における認識精度の向上に進展しているが、エンド・ツー・エンドのディープネットワークにおける低品質テキスト画像の処理方法が研究課題である。
本稿では,高品質なシーンテキスト認識のためのIFR(Iterative Fusion based Recognizer)を提案する。
IFRには、シーンテキスト認識と低品質のシーンテキストイメージリカバリに焦点を当てた2つのブランチが含まれている。
2つのブランチ間の反復的なコラボレーションを利用して,低品質な入力の影響を効果的に軽減する。
rrfと呼ばれる画像復元ブランチと認識器の特徴が融合される2つのブランチの特徴表現を強化するため、機能融合モジュールが提案されている。
認識ネットワーク構造を変更することなく,提案手法は,テキストZoomデータセットにおけるベンチマークデータセットと低解像度画像の認識精度を高めるために,ベースライン法よりも有意に優れていることを示す。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - JSTR: Judgment Improves Scene Text Recognition [0.0]
本稿では,画像とテキストが一致しているかを判断することで,シーンテキスト認識タスクの精度を向上させる手法を提案する。
この方法は、モデルが誤認識しそうなデータに対して明示的なフィードバックを提供することで、テキスト認識の精度を高める。
論文 参考訳(メタデータ) (2024-04-09T02:55:12Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - One-stage Low-resolution Text Recognition with High-resolution Knowledge
Transfer [53.02254290682613]
現在の低解像度テキスト認識のソリューションは、通常2段階のパイプラインに依存している。
本稿では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。
実験の結果、提案されたワンステージパイプラインは、超高解像度ベースの2ステージフレームワークよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-05T02:33:45Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。