論文の概要: Easter2.0: Improving convolutional models for handwritten text
recognition
- arxiv url: http://arxiv.org/abs/2205.14879v1
- Date: Mon, 30 May 2022 06:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 06:16:37.402061
- Title: Easter2.0: Improving convolutional models for handwritten text
recognition
- Title(参考訳): Easter2.0:手書き文字認識のための畳み込みモデルの改善
- Authors: Kartik Chaudhary, Raghav Bali
- Abstract要約: このギャップを埋めるCNNベースのアーキテクチャを提案する。
Easter2.0は1D Convolution, Batch Normalization, ReLU, Dropout, Dense Residual Connect, Squeeze-and-Excitationモジュールの複数のレイヤで構成されている。
本研究は,現在公開されているトレーニングデータのみを用いて,IAM手書きデータベース上での最先端の学習結果を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNN) have shown promising results for the task
of Handwritten Text Recognition (HTR) but they still fall behind Recurrent
Neural Networks (RNNs)/Transformer based models in terms of performance. In
this paper, we propose a CNN based architecture that bridges this gap. Our
work, Easter2.0, is composed of multiple layers of 1D Convolution, Batch
Normalization, ReLU, Dropout, Dense Residual connection, Squeeze-and-Excitation
module and make use of Connectionist Temporal Classification (CTC) loss. In
addition to the Easter2.0 architecture, we propose a simple and effective data
augmentation technique 'Tiling and Corruption (TACO)' relevant for the task of
HTR/OCR. Our work achieves state-of-the-art results on IAM handwriting database
when trained using only publicly available training data. In our experiments,
we also present the impact of TACO augmentations and Squeeze-and-Excitation
(SE) on text recognition accuracy. We further show that Easter2.0 is suitable
for few-shot learning tasks and outperforms current best methods including
Transformers when trained on limited amount of annotated data. Code and model
is available at: https://github.com/kartikgill/Easter2
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnn)は手書きテキスト認識(htr)のタスクに有望な結果を示しているが、性能面ではrecurrent neural networks(rnn)/transformerベースモデルに遅れをとっている。
本稿では,このギャップを埋めるCNNベースのアーキテクチャを提案する。
Easter2.0は1D Convolution, Batch Normalization, ReLU, Dropout, Dense Residual Connect, Squeeze-and-Excitation Module の複数のレイヤで構成されており,Connectionist Temporal Classification (CTC) の損失を利用する。
本稿では,Easer2.0アーキテクチャに加えて,HTR/OCRのタスクに関連する,シンプルかつ効果的なデータ拡張手法であるTACOを提案する。
本研究は,現在公開されているトレーニングデータのみを用いて,IAM手書きデータベース上での最先端の成果を達成する。
また,本実験では,テキスト認識精度に対するTACO強化とSqueeze-and-Excitation(SE)の影響についても検討した。
さらに,限定的なアノテートデータでトレーニングされた場合の変圧器を含む現在の最善の手法よりも,easter2.0が適していることを示す。
コードとモデルは、https://github.com/kartikgill/Easter2.comで入手できる。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Handwritten text generation and strikethrough characters augmentation [0.04893345190925178]
本稿では,Resnet-BiLSTM-CTCネットワークを用いて,単語誤り率(WER)と文字誤り率(CER)を大幅に低減する2つのデータ拡張手法を提案する。
印刷テキスト(StackMix)に基づくストライクテキスト(HandWritten Blots)と手書きテキスト生成をシミュレートする新しい拡張手法を適用する。
10個の手書きテキストデータセットの実験では、HandWritten Blots拡張とStackMixがHTRモデルの品質を大幅に改善した。
論文 参考訳(メタデータ) (2021-12-14T13:41:10Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - Passive Batch Injection Training Technique: Boosting Network Performance
by Injecting Mini-Batches from a different Data Distribution [39.8046809855363]
この研究は、元の入力データとは異なる分布から追加のデータを利用するディープニューラルネットワークの新しいトレーニング手法を提案する。
私たちの知る限りでは、畳み込みニューラルネットワーク(CNN)のトレーニングを支援するために、異なるデータ分散を利用する最初の研究である。
論文 参考訳(メタデータ) (2020-06-08T08:17:32Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。