論文の概要: HCR-Net: A deep learning based script independent handwritten character
recognition network
- arxiv url: http://arxiv.org/abs/2108.06663v4
- Date: Sat, 17 Feb 2024 15:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 22:07:35.244448
- Title: HCR-Net: A deep learning based script independent handwritten character
recognition network
- Title(参考訳): hcr-net:深層学習に基づくスクリプト独立手書き文字認識ネットワーク
- Authors: Vinod Kumar Chauhan, Sukhdeep Singh and Anuj Sharma
- Abstract要約: 手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
- 参考スコア(独自算出の注目度): 5.8067395321424975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten character recognition (HCR) remains a challenging pattern
recognition problem despite decades of research, and lacks research on script
independent recognition techniques. {\color{black}This is mainly because of
similar character structures, different handwriting styles, diverse scripts,
handcrafted feature extraction techniques, unavailability of data and code, and
the development of script-specific deep learning techniques. To address these
limitations, we have proposed a script independent deep learning network for
HCR research, called HCR-Net, that sets a new research direction for the field.
HCR-Net is based on a novel transfer learning approach for HCR, which
\textit{partly utilizes} feature extraction layers of a pre-trained network.}
Due to transfer learning and image augmentation, HCR-Net provides faster and
computationally efficient training, better performance and generalizations, and
can work with small datasets. HCR-Net is extensively evaluated on 40 publicly
available datasets of Bangla, Punjabi, Hindi, English, Swedish, Urdu, Farsi,
Tibetan, Kannada, Malayalam, Telugu, Marathi, Nepali and Arabic languages, and
established 26 new benchmark results while performed close to the best results
in the rest cases. HCR-Net showed performance improvements up to 11\% against
the existing results and achieved a fast convergence rate showing up to 99\% of
final performance in the very first epoch. HCR-Net significantly outperformed
the state-of-the-art transfer learning techniques and also reduced the number
of trainable parameters by 34\% as compared with the corresponding pre-trained
network. To facilitate reproducibility and further advancements of HCR
research, the complete code is publicly released at
\url{https://github.com/jmdvinodjmd/HCR-Net}.
- Abstract(参考訳): 手書き文字認識(HCR)は、数十年の研究にもかかわらず困難なパターン認識問題であり、スクリプト独立認識技術の研究は欠如している。
色{black} これは主に、類似した文字構造、異なる手書きスタイル、多様なスクリプト、手作りの特徴抽出技術、データとコードの利用不可能、そしてスクリプト固有のディープラーニング技術の開発によるものである。
これらの制約に対処するため、HCR-Netと呼ばれるHCR研究のためのスクリプト独立型ディープラーニングネットワークを提案し、この分野の新たな研究方向性を定めている。
HCR-Netは、事前学習されたネットワークの特徴抽出レイヤをtextit{partly} で利用する、HCRのための新しいトランスファー学習アプローチに基づいている。
転送学習と画像拡張のため、hcr-netは高速で計算効率のよいトレーニング、パフォーマンスと一般化を提供し、小さなデータセットで動作します。
HCR-Netは、Bangla, Punjabi, Hindi, English, Swedish, Urdu, Farsi, Tibetan, Kannada, Malayalam, Telugu, Marathi, Nepali and Arabic Languageの40の公開データセットで広く評価されており、残りのケースで最高の結果に近づきながら26の新しいベンチマーク結果を確立した。
hcr-netは、既存の結果に対して最大で11\%のパフォーマンス改善を示し、最初の時代において、最終的なパフォーマンスの99\%の高速収束率を達成した。
hcr-netは、最先端の転送学習技術を大きく上回り、トレーニング可能なパラメータの数を、トレーニング済みネットワークと比較して34\%削減した。
HCR研究の再現性とさらなる進歩を容易にするため、完全なコードは \url{https://github.com/jmdvinodjmd/HCR-Net} で公開されている。
関連論文リスト
- Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts [0.934612743192798]
本稿では,ヘブライOCR後補正のための軽量ニューラルネットワークを,手作業で生成したデータよりもはるかに少ない精度でトレーニングする方法を提案する。
過去のOCR新聞の分析は、共通言語とコーパス固有のOCRエラーを学習するために行われた。
論文 参考訳(メタデータ) (2023-07-30T12:59:06Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。