論文の概要: Early evidence of how LLMs outperform traditional systems on OCR/HTR tasks for historical records
- arxiv url: http://arxiv.org/abs/2501.11623v1
- Date: Mon, 20 Jan 2025 17:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:17.639443
- Title: Early evidence of how LLMs outperform traditional systems on OCR/HTR tasks for historical records
- Title(参考訳): LLMが歴史的記録におけるOCR/HTRタスクにおける従来のシステムより優れていることを示す初期の証拠
- Authors: Seorin Kim, Julien Baudru, Wouter Ryckbosch, Hugues Bersini, Vincent Ginis,
- Abstract要約: 2種類の実験が実行され、1つは画像が1行ずつ分割され、もう1つはスキャン全体が入力として使用される。
CERとBLEUに基づいて,従来のOCR/HTR法よりもLLMの方が優れていることを示す。
我々は,ライン・バイ・ライン画像の2ショットGPT-4oと全スキャン画像の2ショットClaude Sonnet 3.5が,地上の真実と最もよく似た歴史的記録の書き起こしをもたらすと結論付けた。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License:
- Abstract: We explore the ability of two LLMs -- GPT-4o and Claude Sonnet 3.5 -- to transcribe historical handwritten documents in a tabular format and compare their performance to traditional OCR/HTR systems: EasyOCR, Keras, Pytesseract, and TrOCR. Considering the tabular form of the data, two types of experiments are executed: one where the images are split line by line and the other where the entire scan is used as input. Based on CER and BLEU, we demonstrate that LLMs outperform the conventional OCR/HTR methods. Moreover, we also compare the evaluated CER and BLEU scores to human evaluations to better judge the outputs of whole-scan experiments and understand influential factors for CER and BLEU. Combining judgments from all the evaluation metrics, we conclude that two-shot GPT-4o for line-by-line images and two-shot Claude Sonnet 3.5 for whole-scan images yield the transcriptions of the historical records most similar to the ground truth.
- Abstract(参考訳): GPT-4o と Claude Sonnet 3.5 の2つの LLM を用いて,従来の OCR/HTR システム (EasyOCR, Keras, Pytesseract, TrOCR) と比較した。
データの表形式を考慮すると、画像が1行ずつ分割される実験と、スキャン全体を入力として使用する実験の2つのタイプが実行される。
CERとBLEUに基づいて,従来のOCR/HTR法よりもLLMの方が優れていることを示す。
また、評価されたCERとBLEUのスコアと人間の評価を比較し、全スキャン実験のアウトプットをよりよく判断し、CERとBLEUに影響を及ぼす要因を理解する。
評価指標のすべてから,ライン・バイ・ライン画像の2ショット GPT-4o と,全スキャン画像の2ショット Claude Sonnet 3.5 が,地上の真実と最もよく似た歴史的記録の書き起こしが得られると結論付けた。
関連論文リスト
- Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway [0.2796197251957244]
S'ami言語で書かれたテキストのOCRを評価し改善する。
以上の結果から,TranskribusとTrOCRはTesseractよりも優れていることがわかった。
また、訓練済みの微調整モデルや手動アノテーションを補足することで、S'ami言語に対して正確なOCRが得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T13:07:51Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - DISGO: Automatic End-to-End Evaluation for Scene Text OCR [16.231114992450895]
我々は,シーンテキストOCRを評価するための新しい測定基準として,単語誤り率(WER)を均一に利用する。
特にe2eメトリックについては、削除、挿入、置換、グループ化/順序付けエラーを考慮したdisGO WERと名付けます。
論文 参考訳(メタデータ) (2023-08-25T04:45:37Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections [5.8962650619804755]
関連する科学的概念間の意味的関係を推測することは重要なステップである。
BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。
既存の手法は主にクリーンテキストで評価される。
これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
論文 参考訳(メタデータ) (2023-05-03T17:32:16Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Image-text Retrieval: A Survey on Recent Research and Development [58.060687870247996]
クロスモーダル画像テキスト検索(ITR)は、優れた研究価値と幅広い実世界の応用により、研究コミュニティへの関心が高まっている。
本稿では,ITRのアプローチに関する4つの視点から,包括的かつ最新の調査を行う。
論文 参考訳(メタデータ) (2022-03-28T13:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。