論文の概要: Unlocking the Archives: Using Large Language Models to Transcribe Handwritten Historical Documents
- arxiv url: http://arxiv.org/abs/2411.03340v1
- Date: Sat, 02 Nov 2024 00:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:53.354761
- Title: Unlocking the Archives: Using Large Language Models to Transcribe Handwritten Historical Documents
- Title(参考訳): アーカイブのアンロック:手書き歴史文書の転写に大規模言語モデルを使用する
- Authors: Mark Humphries, Lianne C. Leddy, Quinn Downton, Meredith Legace, John McConnell, Isabella Murray, Elizabeth Spence,
- Abstract要約: 大型言語モデル(LLM)は、特殊な手書き文字認識(HTR)ソフトウェアよりもはるかに高い精度で、歴史的手書き文書を転写することができる。
Transcription Pearlと呼ばれるオープンソースのソフトウェアツールは、これらの機能を利用して手書き文書のバッチを自動的に書き起こし、修正する。
- 参考スコア(独自算出の注目度): 1.130790932059036
- License:
- Abstract: This study demonstrates that Large Language Models (LLMs) can transcribe historical handwritten documents with significantly higher accuracy than specialized Handwritten Text Recognition (HTR) software, while being faster and more cost-effective. We introduce an open-source software tool called Transcription Pearl that leverages these capabilities to automatically transcribe and correct batches of handwritten documents using commercially available multimodal LLMs from OpenAI, Anthropic, and Google. In tests on a diverse corpus of 18th/19th century English language handwritten documents, LLMs achieved Character Error Rates (CER) of 5.7 to 7% and Word Error Rates (WER) of 8.9 to 15.9%, improvements of 14% and 32% respectively over specialized state-of-the-art HTR software like Transkribus. Most significantly, when LLMs were then used to correct those transcriptions as well as texts generated by conventional HTR software, they achieved near-human levels of accuracy, that is CERs as low as 1.8% and WERs of 3.5%. The LLMs also completed these tasks 50 times faster and at approximately 1/50th the cost of proprietary HTR programs. These results demonstrate that when LLMs are incorporated into software tools like Transcription Pearl, they provide an accessible, fast, and highly accurate method for mass transcription of historical handwritten documents, significantly streamlining the digitization process.
- Abstract(参考訳): 本研究は,Large Language Models (LLMs) が,手書き文字認識 (HTR) ソフトウェアよりもはるかに高い精度で,より高速で費用対効果の高い歴史的手書き文書を転写できることを実証する。
私たちはTranscription Pearlというオープンソースのソフトウェアツールを導入し、これらの機能を利用して、OpenAI、Anthropic、Googleの商用マルチモーダルLCMを使って手書き文書のバッチを自動的に書き起こし、修正します。
18世紀から19世紀の英語手書き文書の多種多様なコーパスのテストにおいて、LLMは5.7から7%の文字誤り率(CER)と8.9から15.9%のワード誤り率(WER)を達成し、トランスクリバスのような最先端のHTRソフトウェアに対してそれぞれ14%と32%の改善を行った。
最も顕著なのは、LLMがそれらの転写の修正に使われたとき、従来のHTRソフトウェアが生成したテキストと同様に、CERが1.8%、WERが3.5%と、ほぼ人間に近いレベルの精度を達成したことである。
LLMはこれらのタスクを50倍高速化し、プロプライエタリなHTRプログラムの約1/50のコストで完了した。
これらの結果から,LLMをTranscription Pearlのようなソフトウェアツールに組み込むと,過去の手書き文書の大量書き起こしに対して,アクセシブルで高速かつ高精度な手法が提供され,デジタル化プロセスの大幅な合理化が図られた。
関連論文リスト
- Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - SpecTra: Enhancing the Code Translation Ability of Language Models by Generating Multi-Modal Specifications [17.60108067953814]
大規模言語モデル(LLM)は、コード翻訳の自動化作業にますます利用されている。
本稿では,新しい自己整合性フィルタを用いて,まず高品質な仕様を生成するマルチステージアプローチであるSpecTraを提案する。
論文 参考訳(メタデータ) (2024-05-28T20:48:30Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts
-- Managing an Under-resourced Script [0.0]
アラビア文字Maghrib=iスクリプト専用のHTRモデル開発および微調整のための新しいモードオペラーディを導入・評価する。
いくつかの最先端のHTRモデルの比較は、アラビア語に特化した単語ベースのニューラルアプローチの関連性を示している。
その結果、アラビア文字処理のための新しい視点が開かれ、より一般的には、貧弱な言語処理のためのものである。
論文 参考訳(メタデータ) (2022-11-29T12:21:41Z) - DARE: A large-scale handwritten date recognition system [0.0]
約1000万のトークンを含むデータベースを紹介します。
書字スタイルの多様性が高い手書きテキストの訓練により, 一般的な手書きテキスト認識のための頑健なモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-10-02T12:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。