論文の概要: Mixed Model OCR Training on Historical Latin Script for Out-of-the-Box
Recognition and Finetuning
- arxiv url: http://arxiv.org/abs/2106.07881v1
- Date: Tue, 15 Jun 2021 04:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:12:29.377589
- Title: Mixed Model OCR Training on Historical Latin Script for Out-of-the-Box
Recognition and Finetuning
- Title(参考訳): 既定認識と微調整のための歴史的なラテン文字の混合モデルocr訓練
- Authors: Christian Reul, Christoph Wick, Maximilian N\"oth, Andreas B\"uttner,
Maximilian Wehner, Uwe Springmann
- Abstract要約: 本研究では,文字誤り率(CER)が約2%の多焦点認識モデルを構築した。
我々は、このモデルを、手作業や計算の労力をほとんど必要とせずに、印刷の特定のクラスにさらに微調整できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to apply Optical Character Recognition (OCR) to historical printings
of Latin script fully automatically, we report on our efforts to construct a
widely-applicable polyfont recognition model yielding text with a Character
Error Rate (CER) around 2% when applied out-of-the-box. Moreover, we show how
this model can be further finetuned to specific classes of printings with
little manual and computational effort. The mixed or polyfont model is trained
on a wide variety of materials, in terms of age (from the 15th to the 19th
century), typography (various types of Fraktur and Antiqua), and languages
(among others, German, Latin, and French). To optimize the results we combined
established techniques of OCR training like pretraining, data augmentation, and
voting. In addition, we used various preprocessing methods to enrich the
training data and obtain more robust models. We also implemented a two-stage
approach which first trains on all available, considerably unbalanced data and
then refines the output by training on a selected more balanced subset.
Evaluations on 29 previously unseen books resulted in a CER of 1.73%,
outperforming a widely used standard model with a CER of 2.84% by almost 40%.
Training a more specialized model for some unseen Early Modern Latin books
starting from our mixed model led to a CER of 1.47%, an improvement of up to
50% compared to training from scratch and up to 30% compared to training from
the aforementioned standard model. Our new mixed model is made openly available
to the community.
- Abstract(参考訳): 我々は,ラテン文字の歴史印刷に光学的文字認識(ocr)を完全自動適用するために,文字誤り率 (cer) が約2%のテキストを生成する広範に適用可能なポリフォント認識モデルを構築した。
さらに,本モデルは,手作業や計算作業の少ない印刷の特定のクラスにさらに微調整できることを示す。
混合または多形モデルは、年齢(15世紀から19世紀)、タイポグラフィー(様々なタイプのフラクトゥルとアンティクア)、言語(他の言語、ドイツ語、ラテン語、フランス語)といった様々な材料で訓練されている。
結果の最適化には,事前学習やデータ拡張,投票といったOCRトレーニングの確立したテクニックを併用した。
さらに,トレーニングデータを強化し,より堅牢なモデルを得るために,様々な前処理手法を用いた。
また,まず利用可能なデータをすべてトレーニングし,さらにバランスの取れたサブセットをトレーニングすることで出力を改良する2段階の手法を実装した。
29冊の未確認本の評価の結果、CERは1.73%となり、CERが2.84%、ほぼ40%と広く使われている標準モデルを上回った。
私たちの混合モデルから始まった、未発見の初期のラテン系書籍のより専門的なモデルをトレーニングすると、cerは1.47%となり、前述した標準モデルのトレーニングに比べて、スクラッチから最大50%、最大30%改善されました。
当社の新しい混合モデルは、コミュニティに公開されています。
関連論文リスト
- Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Efficient Training of Language Models to Fill in the Middle [17.118891860985123]
自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。
FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。
私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
論文 参考訳(メタデータ) (2022-07-28T17:40:47Z) - Open Source Handwritten Text Recognition on Medieval Manuscripts using
Mixed Models and Document-Specific Finetuning [0.0]
本稿では,ドイツの中世写本における実践的かつオープンソースの手書き文字認識(HTR)の課題について論じる。
文書固有の学習を必要とせずに、箱外で適用可能な混合認識モデルを構築するための取り組みについて報告する。
混合モデルを訓練するために、ゴシックとバスターダの2つの広く使われている筆跡書体のために、35の写本と12.5kのテキストラインのコーパスを収集しました。
論文 参考訳(メタデータ) (2022-01-19T15:34:19Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps
Reviews [1.5749416770494706]
本研究では,2種類の事前学習モデルを用いた感情分析における細調整BERTの有効性について検討した。
使用されるデータセットは、インドネシアのGoogle Playサイトで2020年のトップ10アプリのユーザーレビューである。
また,2つのトレーニングデータラベリング手法を用いて,スコアベースとレキシコンベースのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-14T16:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。