Fugu-MT 論文翻訳(概要): Optical Character Recognition of 19th Century Classical Commentaries: the Current State of Affairs

論文の概要: Optical Character Recognition of 19th Century Classical Commentaries: the Current State of Affairs

arxiv url: http://arxiv.org/abs/2110.06817v1
Date: Wed, 13 Oct 2021 16:01:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-14 17:10:16.541288
Title: Optical Character Recognition of 19th Century Classical Commentaries: the Current State of Affairs
Title（参考訳）: 19世紀の古典的注釈書における光学的文字認識の現状
Authors: Matteo Romanello, Sven Najem-Meyer and Bruce Robertson
Abstract要約: 歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。以上の結果から,Kraken + Ciaconna はテッセラクト/OCR-D よりも文字誤り率 (CER) がかなり低いことが示唆された。我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Together with critical editions and translations, commentaries are one of the main genres of publication in literary and textual scholarship, and have a century-long tradition. Yet, the exploitation of thousands of digitized historical commentaries was hitherto hindered by the poor quality of Optical Character Recognition (OCR), especially on commentaries to Greek texts. In this paper, we evaluate the performances of two pipelines suitable for the OCR of historical classical commentaries. Our results show that Kraken + Ciaconna reaches a substantially lower character error rate (CER) than Tesseract/OCR-D on commentary sections with high density of polytonic Greek text (average CER 7% vs. 13%), while Tesseract/OCR-D is slightly more accurate than Kraken + Ciaconna on text sections written predominantly in Latin script (average CER 8.2% vs. 8.4%). As part of this paper, we also release GT4HistComment, a small dataset with OCR ground truth for 19th classical commentaries and Pogretra, a large collection of training data and pre-trained models for a wide variety of ancient Greek typefaces.
Abstract（参考訳）: 批評版や翻訳版とともに、コメンテーリーは文学やテキストの学問における出版の主要なジャンルの1つであり、世紀にわたる伝統がある。しかし、数千のデジタル化された歴史的注釈の活用は、特にギリシア語のテキストに対する注釈において、光学的文字認識(ocr)の質の低さによって妨げられた。本稿では,歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。その結果、クラケン + ciaconna の文字誤り率 (cer) は、多調ギリシア語テキストの密度が高い注釈区間では tesseract/ocr-d よりもかなり低い(平均は cer 7% 対 13%)のに対し、tesseract/ocr-d は、主にラテン文字で書かれたテキスト区間では kraken + ciaconna よりも若干正確である(平均 cer 8.2% 対 8.4%)。我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。

関連論文リスト

Evaluating LLMs for Historical Document OCR: A Methodological Framework for Digital Humanities [0.0]
デジタル人文科学の学者は、歴史文書のデジタル化に大規模言語モデルを使うことが増えている。伝統的なメトリクスは、歴史的コーパス作成に不可欠な時間的偏見や周期的なエラーを捉えない。国交転写における汚染リスクと系統的バイアスに対処し,LLMに基づく歴史的OCRの評価手法を提案する。
論文参考訳（メタデータ） (2025-10-08T08:01:40Z)
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文参考訳（メタデータ） (2025-02-20T18:41:23Z)
Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models [0.0]
オスカー・ワイルドの19世紀のデジタルアーカイブジャーナリズムは、しばしば品質の悪い光学文字認識(OCR)を持っている本稿は,19世紀英語新聞や定期刊行物の84ページのコレクションである『十九世紀シリアルズ版』でOCRを実践することで,この問題に対処するのに役立つ。その結果得られたNCSE v2.0データセットは、記事の識別、高品質のOCR、テキストを4つのタイプと17のトピックに分類した。
論文参考訳（メタデータ） (2025-02-18T11:10:48Z)
The \textit{Questio de aqua et terra}: A Computational Authorship Verification Study [49.56191463229252]
本研究は, クエシオの真正性について, 数値的オーサシップ検証(AV)を用いて検討する。 AVシステムのファミリーを構築し、13世紀と14世紀のラテン文字のコーパスを組み立てます。 AVシステムのクエチオへの応用は、その真正性に関する非常に確実な予測を返す。
論文参考訳（メタデータ） (2025-01-07T18:42:05Z)
Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文参考訳（メタデータ） (2024-10-17T08:05:02Z)
Post-OCR Text Correction for Bulgarian Historical Documents [31.072768715994318]
我々は、最初の標準ブルガリア正書法であるドリノフ正書法で書かれた歴史的ブルガリア文書のOCRテキスト補正を評価するための最初のベンチマークデータセットを作成する。次に、直近のLLMとエンコーダ・デコーダ・フレームワークを用いて、斜めの注意損失とコピー・アンド・カバー機構を増強し、OCR後のテキスト修正を改善する。提案手法は,認識時に導入された誤りを低減し,文書の品質を25%向上させる。
論文参考訳（メタデータ） (2024-08-31T19:27:46Z)
Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset [1.174020933567308]
本稿では,手書きシリア語テキストに基づく光学文字認識(OCR)モデルの開発を目的とした研究プロジェクトについて報告する。データセットKHAMISは、東シリア文字で手書きの文からなる。データは、KHAMISを作成するために言語で読み書きできるボランティアから収集された。手書きのOCRモデルは、トレーニングセットと評価セットの両方で1.097-1.610%と8.963-10.490%の文字誤り率を達成することができた。
論文参考訳（メタデータ） (2024-08-24T17:17:46Z)
Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文参考訳（メタデータ） (2024-04-09T08:08:03Z)
LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。 125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-04T15:34:12Z)
Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文参考訳（メタデータ） (2023-06-06T08:08:18Z)
Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文参考訳（メタデータ） (2023-03-06T08:32:50Z)
User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文参考訳（メタデータ） (2023-02-26T21:41:15Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文参考訳（メタデータ） (2021-02-01T01:35:55Z)
Interactive Fiction Game Playing as Multi-Paragraph Reading Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。 IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文参考訳（メタデータ） (2020-10-05T23:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。