論文の概要: Optical Character Recognition of 19th Century Classical Commentaries:
the Current State of Affairs
- arxiv url: http://arxiv.org/abs/2110.06817v1
- Date: Wed, 13 Oct 2021 16:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 17:10:16.541288
- Title: Optical Character Recognition of 19th Century Classical Commentaries:
the Current State of Affairs
- Title(参考訳): 19世紀の古典的注釈書における光学的文字認識の現状
- Authors: Matteo Romanello, Sven Najem-Meyer and Bruce Robertson
- Abstract要約: 歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。
以上の結果から,Kraken + Ciaconna はテッセラクト/OCR-D よりも文字誤り率 (CER) がかなり低いことが示唆された。
我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Together with critical editions and translations, commentaries are one of the
main genres of publication in literary and textual scholarship, and have a
century-long tradition. Yet, the exploitation of thousands of digitized
historical commentaries was hitherto hindered by the poor quality of Optical
Character Recognition (OCR), especially on commentaries to Greek texts. In this
paper, we evaluate the performances of two pipelines suitable for the OCR of
historical classical commentaries. Our results show that Kraken + Ciaconna
reaches a substantially lower character error rate (CER) than Tesseract/OCR-D
on commentary sections with high density of polytonic Greek text (average CER
7% vs. 13%), while Tesseract/OCR-D is slightly more accurate than Kraken +
Ciaconna on text sections written predominantly in Latin script (average CER
8.2% vs. 8.4%). As part of this paper, we also release GT4HistComment, a small
dataset with OCR ground truth for 19th classical commentaries and Pogretra, a
large collection of training data and pre-trained models for a wide variety of
ancient Greek typefaces.
- Abstract(参考訳): 批評版や翻訳版とともに、コメンテーリーは文学やテキストの学問における出版の主要なジャンルの1つであり、世紀にわたる伝統がある。
しかし、数千のデジタル化された歴史的注釈の活用は、特にギリシア語のテキストに対する注釈において、光学的文字認識(ocr)の質の低さによって妨げられた。
本稿では,歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。
その結果、クラケン + ciaconna の文字誤り率 (cer) は、多調ギリシア語テキストの密度が高い注釈区間では tesseract/ocr-d よりもかなり低い(平均は cer 7% 対 13%)のに対し、tesseract/ocr-d は、主にラテン文字で書かれたテキスト区間では kraken + ciaconna よりも若干正確である(平均 cer 8.2% 対 8.4%)。
我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。
関連論文リスト
- LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z) - Arabic Diacritic Recovery Using a Feature-Rich biLSTM Model [9.249906540881627]
方言(短母音)は通常アラビア文字を書く際に省略され、読み手はそれらを正しく発音するために再導入する必要がある。
機能豊富なリカレントニューラルネットワークモデルを用いて,様々な言語的特徴と表面的特徴を用いて,コアワードダイアクリティカルとケースエンドの両方を復元する。
我々のモデルは、CWエラーレート2.86%、CEエラーレート3.7%、CWER2.2%、CEER2.5%の古典アラビア語2.5%を超越している。
論文 参考訳(メタデータ) (2020-02-04T10:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。