論文の概要: An HTR-LLM Workflow for High-Accuracy Transcription and Analysis of Abbreviated Latin Court Hand
- arxiv url: http://arxiv.org/abs/2507.04132v1
- Date: Sat, 05 Jul 2025 19:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.032373
- Title: An HTR-LLM Workflow for High-Accuracy Transcription and Analysis of Abbreviated Latin Court Hand
- Title(参考訳): 高精度転写のためのHTR-LLMワークフローと可視ラテンコートハンドの解析
- Authors: Joshua D. Isom,
- Abstract要約: 本稿では,中世の法律文書の高精度な書き起こしと解析のための,理想的な4段階のワークフローを提示し,検証する。
その結果、このハイブリッド多段階のアプローチは、高品質で分析可能な出力を生成しながら、転写の最も面倒な側面を効果的に自動化することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article presents and validates an ideal, four-stage workflow for the high-accuracy transcription and analysis of challenging medieval legal documents. The process begins with a specialized Handwritten Text Recognition (HTR) model, itself created using a novel "Clean Ground Truth" curation method where a Large Language Model (LLM) refines the training data. This HTR model provides a robust baseline transcription (Stage 1). In Stage 2, this baseline is fed, along with the original document image, to an LLM for multimodal post-correction, grounding the LLM's analysis and improving accuracy. The corrected, abbreviated text is then expanded into full, scholarly Latin using a prompt-guided LLM (Stage 3). A final LLM pass performs Named-Entity Correction (NEC), regularizing proper nouns and generating plausible alternatives for ambiguous readings (Stage 4). We validate this workflow through detailed case studies, achieving Word Error Rates (WER) in the range of 2-7% against scholarly ground truths. The results demonstrate that this hybrid, multi-stage approach effectively automates the most laborious aspects of transcription while producing a high-quality, analyzable output, representing a powerful and practical solution for the current technological landscape.
- Abstract(参考訳): 本稿では,挑戦的な中世の法律文書の高精度な書き起こしと解析のための,理想的な4段階のワークフローを提示し,検証する。
このプロセスは、手書き文字認識(HTR)モデルから始まり、それ自体が"Clean Ground Truth"キュレーションメソッドを使って作成され、Large Language Model(LLM)がトレーニングデータを洗練する。
このHTRモデルは、堅牢なベースライン転写(ステップ1)を提供する。
ステージ2では、このベースラインが元の文書画像とともにマルチモーダル後補正のためのLCMに供給され、LCMの分析と精度の向上が図られる。
修正された短縮されたテキストは、プロンプト誘導 LLM (Stage 3) を使用して完全な学術ラテン語に拡張される。
最終 LLM パスは Named-Entity Correction (NEC) を実行し、固有名詞を正規化し、曖昧な読解のためのもっともらしい代替語を生成する(ステップ4)。
我々は、このワークフローを詳細なケーススタディを通じて検証し、学術的根拠の真理に対して2~7%の範囲で単語誤り率(WER)を達成する。
その結果、このハイブリッドなマルチステージアプローチは、高品質で分析可能な出力を生成しながら、転写の最も手間のかかる側面を効果的に自動化し、現在の技術的景観に対する強力で実用的な解決策であることを示した。
関連論文リスト
- Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。