論文の概要: Optical Character Recognition of 19th Century Classical Commentaries:
the Current State of Affairs
- arxiv url: http://arxiv.org/abs/2110.06817v1
- Date: Wed, 13 Oct 2021 16:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 17:10:16.541288
- Title: Optical Character Recognition of 19th Century Classical Commentaries:
the Current State of Affairs
- Title(参考訳): 19世紀の古典的注釈書における光学的文字認識の現状
- Authors: Matteo Romanello, Sven Najem-Meyer and Bruce Robertson
- Abstract要約: 歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。
以上の結果から,Kraken + Ciaconna はテッセラクト/OCR-D よりも文字誤り率 (CER) がかなり低いことが示唆された。
我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Together with critical editions and translations, commentaries are one of the
main genres of publication in literary and textual scholarship, and have a
century-long tradition. Yet, the exploitation of thousands of digitized
historical commentaries was hitherto hindered by the poor quality of Optical
Character Recognition (OCR), especially on commentaries to Greek texts. In this
paper, we evaluate the performances of two pipelines suitable for the OCR of
historical classical commentaries. Our results show that Kraken + Ciaconna
reaches a substantially lower character error rate (CER) than Tesseract/OCR-D
on commentary sections with high density of polytonic Greek text (average CER
7% vs. 13%), while Tesseract/OCR-D is slightly more accurate than Kraken +
Ciaconna on text sections written predominantly in Latin script (average CER
8.2% vs. 8.4%). As part of this paper, we also release GT4HistComment, a small
dataset with OCR ground truth for 19th classical commentaries and Pogretra, a
large collection of training data and pre-trained models for a wide variety of
ancient Greek typefaces.
- Abstract(参考訳): 批評版や翻訳版とともに、コメンテーリーは文学やテキストの学問における出版の主要なジャンルの1つであり、世紀にわたる伝統がある。
しかし、数千のデジタル化された歴史的注釈の活用は、特にギリシア語のテキストに対する注釈において、光学的文字認識(ocr)の質の低さによって妨げられた。
本稿では,歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。
その結果、クラケン + ciaconna の文字誤り率 (cer) は、多調ギリシア語テキストの密度が高い注釈区間では tesseract/ocr-d よりもかなり低い(平均は cer 7% 対 13%)のに対し、tesseract/ocr-d は、主にラテン文字で書かれたテキスト区間では kraken + ciaconna よりも若干正確である(平均 cer 8.2% 対 8.4%)。
我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Post-OCR Text Correction for Bulgarian Historical Documents [31.072768715994318]
我々は、最初の標準ブルガリア正書法であるドリノフ正書法で書かれた歴史的ブルガリア文書のOCRテキスト補正を評価するための最初のベンチマークデータセットを作成する。
次に、直近のLLMとエンコーダ・デコーダ・フレームワークを用いて、斜めの注意損失とコピー・アンド・カバー機構を増強し、OCR後のテキスト修正を改善する。
提案手法は,認識時に導入された誤りを低減し,文書の品質を25%向上させる。
論文 参考訳(メタデータ) (2024-08-31T19:27:46Z) - Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset [1.174020933567308]
本稿では,手書きシリア語テキストに基づく光学文字認識(OCR)モデルの開発を目的とした研究プロジェクトについて報告する。
データセットKHAMISは、東シリア文字で手書きの文からなる。
データは、KHAMISを作成するために言語で読み書きできるボランティアから収集された。
手書きのOCRモデルは、トレーニングセットと評価セットの両方で1.097-1.610%と8.963-10.490%の文字誤り率を達成することができた。
論文 参考訳(メタデータ) (2024-08-24T17:17:46Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。