論文の概要: Best Practices for a Handwritten Text Recognition System
- arxiv url: http://arxiv.org/abs/2404.11339v1
- Date: Wed, 17 Apr 2024 13:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:04:48.444244
- Title: Best Practices for a Handwritten Text Recognition System
- Title(参考訳): 手書き文字認識システムにおけるベストプラクティス
- Authors: George Retsinas, Giorgos Sfikas, Basilis Gatos, Christophoros Nikou,
- Abstract要約: 近年,手書き文字認識が急速に進歩している。
小さな前処理素子が変更されても、性能の非自明な偏差を検出することができる。
この研究は、手書き文字認識システムのトレーニングと優れたパフォーマンスを提供するための、シンプルで効果的な経験的実践を強調している。
- 参考スコア(独自算出の注目度): 8.334691351242753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten text recognition has been developed rapidly in the recent years, following the rise of deep learning and its applications. Though deep learning methods provide notable boost in performance concerning text recognition, non-trivial deviation in performance can be detected even when small pre-processing or architectural/optimization elements are changed. This work follows a ``best practice'' rationale; highlight simple yet effective empirical practices that can further help training and provide well-performing handwritten text recognition systems. Specifically, we considered three basic aspects of a deep HTR system and we proposed simple yet effective solutions: 1) retain the aspect ratio of the images in the preprocessing step, 2) use max-pooling for converting the 3D feature map of CNN output into a sequence of features and 3) assist the training procedure via an additional CTC loss which acts as a shortcut on the max-pooled sequential features. Using these proposed simple modifications, one can attain close to state-of-the-art results, while considering a basic convolutional-recurrent (CNN+LSTM) architecture, for both IAM and RIMES datasets. Code is available at https://github.com/georgeretsi/HTR-best-practices/.
- Abstract(参考訳): 近年,深層学習の普及に伴い,手書き文字認識が急速に発展してきた。
ディープラーニング手法は、テキスト認識に関するパフォーマンスを顕著に向上させるが、小さな前処理やアーキテクチャ/最適化要素を変更した場合でも、パフォーマンスの非自明な偏差を検出することができる。
この作業は‘ベストプラクティス’の理屈に従っており、手書きのテキスト認識システムをさらに強化し、優れたパフォーマンスを提供するための、シンプルで効果的な経験的プラクティスを強調している。
具体的には,深部HTRシステムの3つの基本的な側面を検討した。
1)前処理ステップにおける画像のアスペクト比を保持する。
2) CNN出力の3D特徴マップを一連の特徴に変換するために最大プールを使用する。
3)追加のCTC損失によりトレーニング手順を補助し,最大値の逐次的特徴のショートカットとして機能する。
これらの単純な修正によって、IAMとRIMESの両方のデータセットに対して、基本的な畳み込みリカレント(CNN+LSTM)アーキテクチャを考慮しながら、最先端の結果に近づくことができる。
コードはhttps://github.com/georgeretsi/HTR-best-practices/で公開されている。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - Image Classification by Reinforcement Learning with Two-State Q-Learning [0.0]
深層学習と強化学習に基づくハイブリッドインセプションが提案されている。
提案手法は2つのQ状態しか使用せず,最適化パラメータがはるかに少ない。
論文 参考訳(メタデータ) (2020-06-28T14:54:48Z) - Reinforcement Learning Based Handwritten Digit Recognition with
Two-State Q-Learning [1.8782750537161614]
本稿では,ディープラーニングと強化学習に基づくハイブリッドアプローチを提案する。
Q-Learningは2つのQ状態と4つのアクションで使用される。
提案手法は,AlexNet,CNN-Nearest Neighbor,CNNSupport Vector Machineなどの現代技術よりも優れている。
論文 参考訳(メタデータ) (2020-06-28T14:23:36Z) - Learning 3D-3D Correspondences for One-shot Partial-to-partial
Registration [66.41922513553367]
学習に基づく部分的対部分的な登録をワンショットで行うことができることを示す。
そこで本研究では,ビンの利用により閉塞点を考慮に入れた最適輸送層を提案する。
結果として得られるOPRNetフレームワークは、標準ベンチマークにおける最先端技術を上回っている。
論文 参考訳(メタデータ) (2020-06-08T12:35:47Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。