論文の概要: SVTR: Scene Text Recognition with a Single Visual Model
- arxiv url: http://arxiv.org/abs/2205.00159v1
- Date: Sat, 30 Apr 2022 04:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 07:54:55.409202
- Title: SVTR: Scene Text Recognition with a Single Visual Model
- Title(参考訳): SVTR:単一視覚モデルを用いたシーンテキスト認識
- Authors: Yongkun Du and Zhineng Chen and Caiyan Jia and Xiaoting Yin and
Tianlun Zheng and Chenxia Li and Yuning Du and Yu-Gang Jiang
- Abstract要約: パッチワイド画像トークン化フレームワークにおいて,シーンテキスト認識のための単一ビジュアルモデルを提案する。
SVTRと呼ばれるこの方法は、まずイメージテキストを小さなパッチに分解する。
英語と中国語の両方のシーンテキスト認識タスクの実験結果から,SVTRの有効性が示された。
- 参考スコア(独自算出の注目度): 44.26135584093631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dominant scene text recognition models commonly contain two building blocks,
a visual model for feature extraction and a sequence model for text
transcription. This hybrid architecture, although accurate, is complex and less
efficient. In this study, we propose a Single Visual model for Scene Text
recognition within the patch-wise image tokenization framework, which dispenses
with the sequential modeling entirely. The method, termed SVTR, firstly
decomposes an image text into small patches named character components.
Afterward, hierarchical stages are recurrently carried out by component-level
mixing, merging and/or combining. Global and local mixing blocks are devised to
perceive the inter-character and intra-character patterns, leading to a
multi-grained character component perception. Thus, characters are recognized
by a simple linear prediction. Experimental results on both English and Chinese
scene text recognition tasks demonstrate the effectiveness of SVTR. SVTR-L
(Large) achieves highly competitive accuracy in English and outperforms
existing methods by a large margin in Chinese, while running faster. In
addition, SVTR-T (Tiny) is an effective and much smaller model, which shows
appealing speed at inference. The code is publicly available at
https://github.com/PaddlePaddle/PaddleOCR.
- Abstract(参考訳): 支配的なシーンテキスト認識モデルは、一般的に2つの構成要素、特徴抽出のための視覚モデル、テキスト転写のためのシーケンスモデルを含む。
このハイブリッドアーキテクチャは正確ではあるが、複雑で効率が悪い。
本研究では,パッチワイド画像トークン化フレームワークにおけるシーンテキスト認識のための単一ビジュアルモデルを提案する。
このメソッドはsvtrと呼ばれ、まず画像テキストを小さなパッチ名付き文字要素に分解する。
その後、成分レベル混合、マージ及び/又は結合により階層段階を繰り返す。
大域的および局所的な混合ブロックは、キャラクタ間およびキャラクタ内パターンを知覚するために考案され、多面的キャラクタ成分知覚に繋がる。
したがって、文字は単純な線形予測によって認識される。
英語と中国語のシーン認識タスクにおける実験結果から,svtrの有効性が示された。
SVTR-L (Large) は、英語で高い競争精度を達成し、既存の手法を中国語で大差で上回り、高速に動作させる。
さらに、SVTR-T(Tiny)は、推論時に魅力的な速度を示す、効果的ではるかに小さなモデルである。
コードはhttps://github.com/PaddlePaddle/PaddleOCRで公開されている。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - BERT4CTR: An Efficient Framework to Combine Pre-trained Language Model
with Non-textual Features for CTR Prediction [12.850529317775198]
本稿では,非テキスト特徴とテキスト特徴の相互作用の恩恵を受けることができるUni-Attention機構を備えた新しいフレームワークBERT4CTRを提案する。
BERT4CTRは、マルチモーダル入力を処理する最先端フレームワークを大幅に上回り、Click-Through-Rate (CTR)予測に適用できる。
論文 参考訳(メタデータ) (2023-08-17T08:25:54Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。