論文の概要: The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions
- arxiv url: http://arxiv.org/abs/2603.09470v1
- Date: Tue, 10 Mar 2026 10:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.228843
- Title: The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions
- Title(参考訳): Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy 19th-Century Polytonic Greek Editions (英語)
- Authors: Chahan Vidal-Gorène, Bastien Kindt,
- Abstract要約: パトログア・グラエカ・コーパス(Patrologia Graeca Corpus)は、古代ギリシアの19世紀の版において、最初の大規模なオープンなOCRと言語資源である。
このコレクションは、複雑なバイリンガル(ギリシャ・ラテン語)のレイアウトで印刷されたPatrologia Graeca(PG)の残されている未デジタル化の巻をカバーしており、高度に劣化したポリトニック・ギリシャのタイポグラフィーが特徴である。
We achieve a character error rate (CER) of 1.05% and a word error rate (WER) of 4.69%。
その結果得られたコーパスには、約600万の補修と音声タグ付きトークンが含まれており、フルに整列している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Patrologia Graeca Corpus, the first large-scale open OCR and linguistic resource for nineteenthcentury editions of Ancient Greek. The collection covers the remaining undigitized volumes of the Patrologia Graeca (PG), printed in complex bilingual (Greek-Latin) layouts and characterized by highly degraded polytonic Greek typography. Through a dedicated pipeline combining YOLO-based layout detection and CRNN-based text recognition, we achieve a character error rate (CER) of 1.05% and a word error rate (WER) of 4.69%, largely outperforming existing OCR systems for polytonic Greek. The resulting corpus contains around six million lemmatized and part-of-speech tagged tokens, aligned with full OCR and layout annotations. Beyond its philological value, this corpus establishes a new benchmark for OCR on noisy polytonic Greek and provides training material for future models, including LLMs.
- Abstract(参考訳): パトログア・グラエカ・コーパス(Patrologia Graeca Corpus)は、古代ギリシアの19世紀の版において、最初の大規模なオープンなOCRと言語資源である。
このコレクションは、複雑なバイリンガル(ギリシャ・ラテン語)のレイアウトで印刷されたPatrologia Graeca(PG)の残されている未デジタル化の巻をカバーしており、高度に劣化したポリトニック・ギリシャのタイポグラフィーが特徴である。
YOLOベースのレイアウト検出とCRNNベースのテキスト認識を組み合わせた専用パイプラインにより、文字誤り率(CER)が1.05%、単語誤り率(WER)が4.69%に達し、これはポリトニック・ギリシャ語の既存のOCRシステムを上回る。
結果として得られたコーパスには、約600万のレンマ化および部分音声タグ付きトークンが含まれており、完全なOCRとレイアウトアノテーションに一致している。
このコーパスは、その文献的価値の他に、ノイズの多いポリトニックギリシア語に関するOCRの新しいベンチマークを確立し、LSMを含む将来のモデルのためのトレーニング材料を提供する。
関連論文リスト
- Cross-Lingual SynthDocs: A Large-Scale Synthetic Corpus for Any to Arabic OCR and Document Understanding [3.587092806938212]
Cross-Lingual SynthDocsは、光学文字認識(OCR)と文書理解(DU)のためのアラビア語リソースの不足に対処するために設計された大規模な合成コーパスである。
データセットは、150万のテキストデータ、270万の注釈付きテーブル、数十万の実際のデータベースチャートを含む、250万以上のサンプルで構成されている。
論文 参考訳(メタデータ) (2025-11-01T04:54:58Z) - Logios : An open source Greek Polytonic Optical Character Recognition system [0.0]
本稿では,ギリシア語多言語テキストの正確な認識とデジタル化を目的として,光学文字認識(OCR)システムを提案する。
特徴抽出のための畳み込み層とシーケンシャルラーニングのための繰り返し層を組み合わせることで、ギリシャのポリトニックスクリプトがもたらす固有の課題に対処する。
論文 参考訳(メタデータ) (2025-06-26T17:04:27Z) - OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography [58.790901822971094]
Oracle Bone Script (OBS) は古代文明の文化記録と知的表現をカプセル化している。
約4,500のOBS文字が発見されたが、解読されたのは1,600文字程度である。
本稿では,OracleFusionという新しい2段階セマンティックフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T08:56:07Z) - Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction [0.0]
19世紀のラテンアメリカの新聞のテキストのデータセットを導入し、この地域の歴史的・言語学的分析のための特別なコーパスにおける重要なギャップに対処している。
デジタルコーパスにおけるOCR誤り訂正と言語表面形状検出にLarge Language Modelを利用するフレキシブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-04T02:10:18Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - Optical Character Recognition of 19th Century Classical Commentaries:
the Current State of Affairs [0.0]
歴史的注釈書のOCRに適した2つのパイプラインの性能を評価する。
以上の結果から,Kraken + Ciaconna はテッセラクト/OCR-D よりも文字誤り率 (CER) がかなり低いことが示唆された。
我々はまた、19世紀の注釈書にOCRの真実を記した小さなデータセットであるGT4HistCommentと、さまざまな古代ギリシアの書体のための大量のトレーニングデータと事前訓練されたモデルであるPogretraもリリースした。
論文 参考訳(メタデータ) (2021-10-13T16:01:16Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。