論文の概要: Pre-Editorial Normalization for Automatically Transcribed Medieval Manuscripts in Old French and Latin
- arxiv url: http://arxiv.org/abs/2602.13905v1
- Date: Sat, 14 Feb 2026 21:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.550074
- Title: Pre-Editorial Normalization for Automatically Transcribed Medieval Manuscripts in Old French and Latin
- Title(参考訳): 古フランス語・ラテン語における自動転写中世写本の序文正規化
- Authors: Thibault Clérice, Rachel Bawden, Anthony Glaise, Ariane Pinche, David Smith,
- Abstract要約: グラデミックATRの出力を編集規則に従って正規化するPEN(Pre-Editorial Normalization)の課題を紹介する。
我々は,CoMMAコーパスから派生した新しいデータセットを,パスミムを用いて古フランス語版とラテン語版をデジタル化した。
我々は、正規化タスクと事前アノテーションタスクに基づいて、ByT5ベースのシーケンス・ツー・シーケンスモデルを用いて、このリソースをベンチマークする。
- 参考スコア(独自算出の注目度): 9.171446868270468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Automatic Text Recognition (ATR) have improved access to historical archives, yet a methodological divide persists between palaeographic transcriptions and normalized digital editions. While ATR models trained on more palaeographically-oriented datasets such as CATMuS have shown greater generalizability, their raw outputs remain poorly compatible with most readers and downstream NLP tools, thus creating a usability gap. On the other hand, ATR models trained to produce normalized outputs have been shown to struggle to adapt to new domains and tend to over-normalize and hallucinate. We introduce the task of Pre-Editorial Normalization (PEN), which consists in normalizing graphemic ATR output according to editorial conventions, which has the advantage of keeping an intermediate step with palaeographic fidelity while providing a normalized version for practical usability. We present a new dataset derived from the CoMMA corpus and aligned with digitized Old French and Latin editions using passim. We also produce a manually corrected gold-standard evaluation set. We benchmark this resource using ByT5-based sequence-to-sequence models on normalization and pre-annotation tasks. Our contributions include the formal definition of PEN, a 4.66M-sample silver training corpus, a 1.8k-sample gold evaluation set, and a normalization model achieving a 6.7% CER, substantially outperforming previous models for this task.
- Abstract(参考訳): 近年のATR(Automatic Text Recognition)の進歩により、歴史的アーカイブへのアクセスが向上しているが、書写と正規化されたデジタル版の間には方法論的な分割が持続している。
CATMuSのような、よりパレオグラフィック指向のデータセットでトレーニングされたATRモデルは、より一般化可能性を示しているが、生の出力は、ほとんどの読者や下流のNLPツールと互換性が低いままであり、ユーザビリティのギャップが生じる。
一方、正規化された出力を生成するために訓練されたATRモデルは、新しいドメインへの適応に苦慮し、過剰な正規化と幻覚を引き起こす傾向があることが示されている。
本稿では, グラフィカルなATR出力を編集規則に従って正規化するPEN(Pre-Editorial Normalization)の課題を紹介する。
本稿では,CoMMAコーパスから派生した新しいデータセットについて述べる。
また、手動で修正された金標準評価セットも作成する。
我々は、正規化タスクと事前アノテーションタスクに基づいて、ByT5ベースのシーケンス・ツー・シーケンスモデルを用いて、このリソースをベンチマークする。
コントリビューションには、PENの正式な定義、4.66Mサンプル銀トレーニングコーパス、1.8kサンプル金の評価セット、および6.7%のCERを達成する正規化モデルなどが含まれており、このタスクの過去のモデルよりも大幅に優れている。
関連論文リスト
- Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Neural Text Normalization for Luxembourgish using Real-Life Variation Data [21.370964546752294]
ByT5 と mT5 アーキテクチャを用いた最初のシーケンス・ツー・シーケンス正規化モデルを提案する。
実生活変動データを用いたシーケンスモデルは,ルクセンブルク語におけるテーラーメイド正規化に有効な手法であることを示す。
論文 参考訳(メタデータ) (2024-12-12T15:50:55Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Is text normalization relevant for classifying medieval charters? [0.0]
本研究では,歴史文書の正規化が中世チャーターの分類に与える影響について検討した。
その結果,与えられた正規化はタスクの配置を最小限に改善するが,デートの精度は低下することがわかった。
その結果, 歴史的テキストの正規化に対する選択的アプローチが示唆され, テキストの特徴を保存することの重要性が強調された。
論文 参考訳(メタデータ) (2024-08-29T11:19:57Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。