論文の概要: EASTER: Efficient and Scalable Text Recognizer
- arxiv url: http://arxiv.org/abs/2008.07839v2
- Date: Wed, 19 Aug 2020 14:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:36:18.623608
- Title: EASTER: Efficient and Scalable Text Recognizer
- Title(参考訳): EASTER: 効率的でスケーラブルなテキスト認識装置
- Authors: Kartik Chaudhary and Raghav Bali
- Abstract要約: 本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in deep learning has led to the development of Optical
Character Recognition (OCR) systems which perform remarkably well. Most
research has been around recurrent networks as well as complex gated layers
which make the overall solution complex and difficult to scale. In this paper,
we present an Efficient And Scalable TExt Recognizer (EASTER) to perform
optical character recognition on both machine printed and handwritten text. Our
model utilises 1-D convolutional layers without any recurrence which enables
parallel training with considerably less volume of data. We experimented with
multiple variations of our architecture and one of the smallest variant (depth
and number of parameter wise) performs comparably to RNN based complex choices.
Our 20-layered deepest variant outperforms RNN architectures with a good margin
on benchmarking datasets like IIIT-5k and SVT. We also showcase improvements
over the current best results on offline handwritten text recognition task. We
also present data generation pipelines with augmentation setup to generate
synthetic datasets for both handwritten and machine printed text.
- Abstract(参考訳): 近年のディープラーニングの進歩により,光学文字認識(OCR)システムの開発が著しく進んでいる。
ほとんどの研究は、リカレントネットワークと、ソリューション全体を複雑でスケールが難しい複雑なゲート層に関するものだ。
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うためのEASTER(Efficient And Scalable TExt Recognizer)を提案する。
本モデルは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現する。
我々は、アーキテクチャの複数のバリエーションを実験し、RNNに基づく複雑な選択に対して、最小のバリエーション(パラメータの深さと数)の1つを比較検討した。
当社の20層モデルでは,IIIT-5kやSVTといったベンチマークデータセットに対して,RNNアーキテクチャよりも優れています。
オフライン手書きテキスト認識タスクの現在のベスト結果に対する改善点も紹介する。
また,手書きテキストと機械印刷テキストの合成データセットを生成するために,拡張セットアップを備えたデータ生成パイプラインを提案する。
関連論文リスト
- (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - Best Practices for a Handwritten Text Recognition System [8.334691351242753]
近年,手書き文字認識が急速に進歩している。
小さな前処理素子が変更されても、性能の非自明な偏差を検出することができる。
この研究は、手書き文字認識システムのトレーニングと優れたパフォーマンスを提供するための、シンプルで効果的な経験的実践を強調している。
論文 参考訳(メタデータ) (2024-04-17T13:00:05Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Easter2.0: Improving convolutional models for handwritten text
recognition [0.0]
このギャップを埋めるCNNベースのアーキテクチャを提案する。
Easter2.0は1D Convolution, Batch Normalization, ReLU, Dropout, Dense Residual Connect, Squeeze-and-Excitationモジュールの複数のレイヤで構成されている。
本研究は,現在公開されているトレーニングデータのみを用いて,IAM手書きデータベース上での最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2022-05-30T06:33:15Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Enhanced Seq2Seq Autoencoder via Contrastive Learning for Abstractive
Text Summarization [15.367455931848252]
抽象テキスト要約のためのコントラスト学習によるシーケンス・ツー・シーケンス(seq2seq)オートエンコーダを提案する。
本モデルは,多層双方向エンコーダと自動回帰デコーダを備えた標準トランスフォーマーアーキテクチャを採用する。
2つのデータセットで実験を行い、我々のモデルが既存のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2021-08-26T18:45:13Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。