論文の概要: SuperOCR: A Conversion from Optical Character Recognition to Image
Captioning
- arxiv url: http://arxiv.org/abs/2012.02033v1
- Date: Sat, 21 Nov 2020 06:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:33:10.717022
- Title: SuperOCR: A Conversion from Optical Character Recognition to Image
Captioning
- Title(参考訳): superocr:光学式文字認識から画像キャプションへの変換
- Authors: Baohua Sun, Michael Lin, Hao Sha, Lin Yang
- Abstract要約: 文字の位置を検知することなく文字を認識する手法を提案する。
これはOCRタスクをイメージキャプションタスクに変換することで実現される。
実験の結果,提案手法は,ライセンスプレート認識と水位計文字認識の両タスクにおいて,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 14.746869920517653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Character Recognition (OCR) has many real world applications. The
existing methods normally detect where the characters are, and then recognize
the character for each detected location. Thus the accuracy of characters
recognition is impacted by the performance of characters detection. In this
paper, we propose a method for recognizing characters without detecting the
location of each character. This is done by converting the OCR task into an
image captioning task. One advantage of the proposed method is that the labeled
bounding boxes for the characters are not needed during training. The
experimental results show the proposed method outperforms the existing methods
on both the license plate recognition and the watermeter character recognition
tasks. The proposed method is also deployed into a low-power (300mW) CNN
accelerator chip connected to a Raspberry Pi 3 for on-device applications.
- Abstract(参考訳): 光文字認識(OCR)は多くの実世界の応用がある。
既存の方法は通常、文字の位置を検知し、検出された場所ごとに文字を認識する。
これにより、文字認識の精度は文字検出の性能に影響される。
本稿では,各文字の位置を検知せずに文字を認識する手法を提案する。
これはOCRタスクをイメージキャプションタスクに変換することで実現される。
提案手法の利点の1つは、トレーニング中に文字のラベル付き境界ボックスを必要としないことである。
実験の結果,提案手法は,ライセンスプレート認識と水位計文字認識の両タスクにおいて,既存の手法よりも優れていた。
提案手法は、デバイス上のアプリケーション用にRaspberry Pi 3に接続された低消費電力(300mW)CNNアクセラレータチップにも展開される。
関連論文リスト
- Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition [22.13675752628]
本稿では,不規則なシーンテキスト認識のための新しいクロスモーダル融合ネットワーク(CMFN)を提案する。
CMFNは、位置自己拡張エンコーダ、視覚認識枝、反復意味認識枝から構成される。
実験により,提案したCMFNアルゴリズムは最先端のアルゴリズムに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-01-18T15:05:57Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - DTrOCR: Decoder-only Transformer for Optical Character Recognition [0.0]
我々は,光文字認識用デコーダのみ変換器(DTrOCR)と呼ばれる,テキスト認識のためのよりシンプルで効果的な方法を提案する。
この方法は、デコーダのみのトランスフォーマーを使用して、大きなコーパスで事前訓練された生成言語モデルを活用する。
我々の実験では、DTrOCRは、英語と中国語の両方で印刷、手書き、シーンテキストの認識において、最先端の手法よりもはるかに優れていることを示した。
論文 参考訳(メタデータ) (2023-08-30T12:37:03Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition [68.95544645458882]
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
論文 参考訳(メタデータ) (2021-05-18T09:20:58Z) - Image Processing Based Scene-Text Detection and Recognition with
Tesseract [0.0]
本研究は,自然画像における単語の検出と認識に焦点を当てる。
このプロジェクトは80%以上の正確な文字認識率を達成した。
本稿では、開発段階、主な課題、そしてプロジェクトの興味深い発見について概説する。
論文 参考訳(メタデータ) (2020-04-17T06:58:35Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。