論文の概要: Continuous Offline Handwriting Recognition using Deep Learning Models
- arxiv url: http://arxiv.org/abs/2112.13328v1
- Date: Sun, 26 Dec 2021 07:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:16:57.395331
- Title: Continuous Offline Handwriting Recognition using Deep Learning Models
- Title(参考訳): ディープラーニングモデルを用いた連続オフライン手書き認識
- Authors: Jorge Sueiras
- Abstract要約: 手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handwritten text recognition is an open problem of great interest in the area
of automatic document image analysis. The transcription of handwritten content
present in digitized documents is significant in analyzing historical archives
or digitizing information from handwritten documents, forms, and
communications. In the last years, great advances have been made in this area
due to applying deep learning techniques to its resolution. This Thesis
addresses the offline continuous handwritten text recognition (HTR) problem,
consisting of developing algorithms and models capable of transcribing the text
present in an image without the need for the text to be segmented into
characters. For this purpose, we have proposed a new recognition model based on
integrating two types of deep learning architectures: convolutional neural
networks (CNN) and sequence-to-sequence (seq2seq) models, respectively. The
convolutional component of the model is oriented to identify relevant features
present in characters, and the seq2seq component builds the transcription of
the text by modeling the sequential nature of the text. For the design of this
new model, an extensive analysis of the capabilities of different convolutional
architectures in the simplified problem of isolated character recognition has
been carried out in order to identify the most suitable ones to be integrated
into the continuous model. Additionally, extensive experimentation of the
proposed model for the continuous problem has been carried out to determine its
robustness to changes in parameterization. The generalization capacity of the
model has also been validated by evaluating it on three handwritten text
databases using different languages: IAM in English, RIMES in French, and
Osborne in Spanish, respectively. The new proposed model provides competitive
results with those obtained with other well-established methodologies.
- Abstract(参考訳): 手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
デジタル化された文書に存在する手書きコンテンツの転写は、歴史的アーカイブの分析や手書き文書、形態、コミュニケーションからの情報をデジタル化する上で重要である。
過去数年間、この領域では、その解像度にディープラーニング技術を適用することで、大きな進歩を遂げてきた。
この論文は、画像に存在するテキストを文字に分割することなく書き起こせるアルゴリズムとモデルを開発することによる、オフライン連続手書きテキスト認識(htr)問題に対処するものである。
そこで本研究では,cnn(convolutional neural networks)とseq2seq(sequence-to-sequence)の2種類のディープラーニングアーキテクチャを統合した新しい認識モデルを提案する。
モデルの畳み込み成分は、文字に存在する関係する特徴を特定することを目的としており、セク2セク成分は、テキストのシーケンシャルな性質をモデル化してテキストの書き起こしを構築する。
この新モデルの設計のために, 分離文字認識の簡易化問題において, 異なる畳み込みアーキテクチャの機能を広範囲に解析し, 連続モデルに組み込むのに適したものを特定する。
さらに,パラメータ化の変化に対するロバスト性を決定するために,連続問題に対する提案モデルの広範な実験を行った。
モデルの一般化能力は、英語のIAM、フランス語のRIMES、スペイン語のOsborneの3つの手書きテキストデータベースで評価することで検証されている。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition [4.059708117119894]
本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に引き続き寄与するかどうかを論じる。
我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。
その結果,文字やサブワードの n-gram モデルの導入は,すべてのデータセット上での ATR モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:37:48Z) - A Transformer-based Approach for Arabic Offline Handwritten Text
Recognition [0.0]
オフラインのアラビア文字を認識できるアーキテクチャを2つ導入する。
私たちのアプローチは言語依存をモデル化することができ、注意機構のみに依存するので、より並列化可能で、より複雑ではありません。
アラビアKHATTデータセットの評価は,提案手法が現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-27T17:51:52Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - SLCNN: Sentence-Level Convolutional Neural Network for Text
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は,テキスト分類のタスクにおいて顕著な成功を収めている。
CNNを用いたテキスト分類のための新しいベースラインモデルが研究されている。
結果から,提案したモデルの性能は,特に長いドキュメントにおいて向上していることがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:16:02Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。