論文の概要: Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition
- arxiv url: http://arxiv.org/abs/2303.05929v2
- Date: Mon, 29 Jan 2024 19:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:53:04.188197
- Title: Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition
- Title(参考訳): マルジンにおける手書きテキストの発見:手書きテキストの検出と認識
- Authors: Liang Cheng, Jonas Frankem\"olle, Adam Axelsson and Ekta Vats
- Abstract要約: 本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
- 参考スコア(独自算出の注目度): 0.840835093659811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pressing need for digitization of historical documents has led to a
strong interest in designing computerised image processing methods for
automatic handwritten text recognition. However, not much attention has been
paid on studying the handwritten text written in the margins, i.e. marginalia,
that also forms an important source of information. Nevertheless, training an
accurate and robust recognition system for marginalia calls for data-efficient
approaches due to the unavailability of sufficient amounts of annotated
multi-writer texts. Therefore, this work presents an end-to-end framework for
automatic detection and recognition of handwritten marginalia, and leverages
data augmentation and transfer learning to overcome training data scarcity. The
detection phase involves investigation of R-CNN and Faster R-CNN networks. The
recognition phase includes an attention-based sequence-to-sequence model, with
ResNet feature extraction, bidirectional LSTM-based sequence modeling, and
attention-based prediction of marginalia. The effectiveness of the proposed
framework has been empirically evaluated on the data from early book
collections found in the Uppsala University Library in Sweden. Source code and
pre-trained models are available at Github.
- Abstract(参考訳): 歴史的文書のデジタル化の必要性が高まり、手書き文字自動認識のためのコンピュータ画像処理手法の設計に強い関心が寄せられている。
しかし、マージンに書かれた手書きのテキスト、すなわち、マージンが重要な情報源となる文章を研究することにはあまり注意が払われていない。
それでも、十分な量の注釈付きマルチライターテキストが利用できないため、精度が高くロバストな認識システムを訓練することで、データ効率のよいアプローチが求められている。
そこで本研究では,手書き境界線の自動検出と認識のためのエンドツーエンドフレームワークを提案し,データ拡張と転送学習を活用して,トレーニングデータの不足を克服する。
検出フェーズには、R-CNNとFaster R-CNNネットワークの調査が含まれる。
認識フェーズは、resnet特徴抽出、双方向lstmに基づくシーケンスモデリング、および注意に基づく辺縁の予測を含む注意に基づくシーケンスツーシーケンスモデルを含む。
提案手法の有効性は,スウェーデン・ウプサラ大学図書館の初期の書籍コレクションから得られたデータから実証的に評価されている。
ソースコードと事前トレーニングされたモデルはgithubで入手できる。
関連論文リスト
- Semantic Meta-Split Learning: A TinyML Scheme for Few-Shot Wireless Image Classification [50.28867343337997]
本研究は,TinyMLを用いた無線画像分類のためのセマンティック・コミュニケーション・フレームワークを提案する。
我々は、プライバシ保護を確保しつつ、エンドユーザーによって実行される計算を制限するために分割学習を利用する。
メタ学習は、データ可用性の懸念を克服し、同様のトレーニングされたタスクを利用することで、トレーニングを高速化する。
論文 参考訳(メタデータ) (2024-09-03T05:56:55Z) - Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - AttentionHTR: Handwritten Text Recognition Based on Attention
Encoder-Decoder Networks [0.0]
本研究は,手書き単語認識のための注目に基づくシーケンス・ツー・シーケンス・モデルを提案する。
シーンテキストイメージに事前トレーニングされたモデルを、手書き認識モデルのカスタマイズに向けた出発点として活用する。
提案したエンドツーエンドHTRシステムの有効性は、新しいマルチライターデータセットで実証的に評価されている。
論文 参考訳(メタデータ) (2022-01-23T22:48:36Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Object Detection Based Handwriting Localization [2.6641834518599308]
文書から手書き領域をローカライズするオブジェクト検出手法を提案する。
提案手法は手書き文字認識や署名検証などの他の作業を容易にすることも期待されている。
論文 参考訳(メタデータ) (2021-06-28T21:25:20Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。