論文の概要: Open Source Handwritten Text Recognition on Medieval Manuscripts using
Mixed Models and Document-Specific Finetuning
- arxiv url: http://arxiv.org/abs/2201.07661v1
- Date: Wed, 19 Jan 2022 15:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 17:29:10.696111
- Title: Open Source Handwritten Text Recognition on Medieval Manuscripts using
Mixed Models and Document-Specific Finetuning
- Title(参考訳): 混合モデルと文書特色ファインタニングを用いた中世写本のオープンソース手書き文字認識
- Authors: Christian Reul, Stefan Tomasek, Florian Langhanki, Uwe Springmann
- Abstract要約: 本稿では,ドイツの中世写本における実践的かつオープンソースの手書き文字認識(HTR)の課題について論じる。
文書固有の学習を必要とせずに、箱外で適用可能な混合認識モデルを構築するための取り組みについて報告する。
混合モデルを訓練するために、ゴシックとバスターダの2つの広く使われている筆跡書体のために、35の写本と12.5kのテキストラインのコーパスを収集しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper deals with the task of practical and open source Handwritten Text
Recognition (HTR) on German medieval manuscripts. We report on our efforts to
construct mixed recognition models which can be applied out-of-the-box without
any further document-specific training but also serve as a starting point for
finetuning by training a new model on a few pages of transcribed text (ground
truth). To train the mixed models we collected a corpus of 35 manuscripts and
ca. 12.5k text lines for two widely used handwriting styles, Gothic and
Bastarda cursives. Evaluating the mixed models out-of-the-box on four unseen
manuscripts resulted in an average Character Error Rate (CER) of 6.22%. After
training on 2, 4 and eventually 32 pages the CER dropped to 3.27%, 2.58%, and
1.65%, respectively. While the in-domain recognition and training of models
(Bastarda model to Bastarda material, Gothic to Gothic) unsurprisingly yielded
the best results, finetuning out-of-domain models to unseen scripts was still
shown to be superior to training from scratch.
Our new mixed models have been made openly available to the community.
- Abstract(参考訳): 本稿では,ドイツの中世写本における実践的かつオープンソースの手書き文字認識(HTR)の課題を扱う。
本報告では,文書固有の訓練を一切行わず,かつ数ページの書き起こしテキスト(地下真実)に新たなモデルをトレーニングすることで,微調整の出発点として機能する混在認識モデルの構築について述べる。
混合モデルをトレーニングするために、35の原稿とcaのコーパスを集めました。
ゴシック文字とバスターダ文字の2種類の筆跡用の12.5kテキスト行。
4つの未確認原稿の混合モデルの評価の結果、平均的な文字誤り率(CER)は6.22%となった。
2、4ページ、32ページのトレーニングを経て、CERはそれぞれ3.27%、2.58%、1.65%に低下した。
ドメイン内におけるモデル認識とトレーニング(bastarda model to bastarda material, gothic to gothic)は、当然ながら最高の結果をもたらしたが、ドメイン外モデルから見えないスクリプトへの微調整は、いまだにスクラッチからトレーニングよりも優れていることが示されている。
私たちの新しい混合モデルは、コミュニティに公開されています。
関連論文リスト
- Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Lacuna Reconstruction: Self-supervised Pre-training for Low-Resource
Historical Document Transcription [25.76860672652937]
また,スクラッチから訓練した同じ教師付きモデルに対して,30行の画像書き起こしで認識精度を有意に向上させることを示した。
我々のマスク付き言語モデルスタイルの事前学習戦略では、モデルが同じ行内からサンプリングされた邪魔者から真のマスク付き視覚表現を識別できるように訓練され、堅牢な文脈化された言語表現の学習が促進される。
論文 参考訳(メタデータ) (2021-12-16T08:28:26Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Mixed Model OCR Training on Historical Latin Script for Out-of-the-Box
Recognition and Finetuning [0.0]
本研究では,文字誤り率(CER)が約2%の多焦点認識モデルを構築した。
我々は、このモデルを、手作業や計算の労力をほとんど必要とせずに、印刷の特定のクラスにさらに微調整できることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。