論文の概要: Democratizing the medieval English legal tradition
- arxiv url: http://arxiv.org/abs/2605.00977v1
- Date: Fri, 01 May 2026 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.52875
- Title: Democratizing the medieval English legal tradition
- Title(参考訳): 中世イングランドの法的な伝統を民主化する
- Authors: Michael Zhang, Elise Wang, Charlotte Whatley, Seth Strickland, Dylan Bannon,
- Abstract要約: 我々は中世の刑事事件と民事事件の4029行のデータセットを構築した。
データセットを使用して、これらの原稿をトランスクリプティングするために、オープンソースのエンドツーエンドパイプラインをトレーニングします。
- 参考スコア(独自算出の注目度): 5.1825263825947125
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The record of the beginning of the most widespread legal system in the world is contained in millions of pages of handwritten text. Most of the records of the first centuries of the Anglo-American legal system are hand-written in a highly abbreviated form of medieval Latin which only a few dozen scholars in the world are trained to read. In this interdisciplinary project, we construct a dataset of 4029 lines of text across 193 medieval criminal and civil cases. We then use the dataset to train an open-source end-to-end pipeline for transcribing these manuscripts. We first train standard neural network architectures for line segmentation and handwriting recognition (R-Blla and CNN+LSTM with CTC decoding, respectively) and show that they can already achieve 79% word accuracy, despite the relatively small training set and the challenge of expanding abbreviations. We then demonstrate that simple post-processing significantly boosts accuracy: adding an n-gram language model to the CTC decoder improves word accuracy to 82%, while asking Gemini Pro 3 to correct mistakes boosts accuracy to 88%. Finally, we compare the CNN+LSTM architecture with TrOCR, a transformer-based OCR architecture, demonstrating that TrOCR shows comparable word accuracy but worse character accuracy due to its over-willingness to guess, making it harder for humans to infer the correct reading. We incorporated our pipeline into a web portal (glyphmachina.com), opening up the English legal tradition to legal scholars, medievalists, and students.
- Abstract(参考訳): 世界で最も広く普及した法体系の始まりの記録は、何百万ページもの手書きテキストに収められている。
アングロ・アメリカンの法体系の最初の世紀の記録のほとんどは、世界で数ダースもの学者しか読めない、非常に短縮された中世ラテン語の書体で手書きされている。
この学際的プロジェクトにおいて、中世の刑事・民事事件193件にわたる4029行のテキストデータセットを構築した。
次に、データセットを使用して、これらの原稿をトランスクリプティングするためのオープンソースのエンドツーエンドパイプラインをトレーニングします。
まず、行分割と手書き認識のための標準ニューラルネットワークアーキテクチャ(それぞれCTCデコード付きR-BllaとCNN+LSTM)をトレーニングし、比較的小さなトレーニングセットと略語の拡張の難しさにもかかわらず、すでに79%の単語精度を達成可能であることを示す。
CTCデコーダにn-gram言語モデルを追加すると、単語の精度が82%向上し、誤りの訂正をGemini Pro 3に依頼すると精度が88%向上する。
最後に、CNN+LSTMアーキテクチャをトランスフォーマーベースのOCRアーキテクチャであるTrOCRと比較し、TrOCRは単語の正確さに匹敵するが、推測の過度さにより文字の精度が悪く、人間が正しい読みを推測することが難しくなることを示した。
私たちは私たちのパイプラインをWebポータル(Glyphmachina.com)に組み入れ、法学者、中世学者、学生に英語の法的な伝統を開放しました。
関連論文リスト
- Towards Intelligent Legal Document Analysis: CNN-Driven Classification of Case Law Texts [1.3192560874022086]
本研究は,引用処理分類のための軽量かつ高精度なフレームワークを提案する。
単語認識型FastText埋め込みと1次元畳み込みニューラルネットワーク(CNN)との補間に基づく前処理を併用する。
提案システムは97.26%の分類精度と96.82%のマクロF1スコアを達成し,既存のベースラインを超えている。
論文 参考訳(メタデータ) (2026-04-20T00:14:11Z) - Towards Faster k-Nearest-Neighbor Machine Translation [51.866464707284635]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
本手法は,翻訳品質をわずかに低下させることなく,kNN検索のオーバーヘッドを最大53%削減する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Neural OCR Post-Hoc Correction of Historical Corpora [4.427447378048202]
本稿では,再カレント(RNN)と深部畳み込みネットワーク(ConvNet)を組み合わせたニューラルアプローチを提案する。
我々のモデルは多様なOCR転写誤りを捕捉し、単語誤り率を32.3%減らして89%以上削減できることを示す。
論文 参考訳(メタデータ) (2021-02-01T01:35:55Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。