論文の概要: Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents
- arxiv url: http://arxiv.org/abs/2504.00414v1
- Date: Tue, 01 Apr 2025 04:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:17.494679
- Title: Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents
- Title(参考訳): 歴史的文書におけるOCR, OCRポストコレクション, 名前付きエンティティ認識のためのマルチモーダルLCM
- Authors: Gavin Greif, Niclas Griesshaber, Robin Greif,
- Abstract要約: 我々は,マルチモーダル大規模言語モデル (mLLM) が研究者の歴史的文書の書き起こしにどう役立つかを検討する。
我々は,mLLMと従来のOCRモデルの両方の既製の転写精度をベンチマークした。
我々はまず,mLLMを用いたOCR出力のマルチモーダル後補正を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We explore how multimodal Large Language Models (mLLMs) can help researchers transcribe historical documents, extract relevant historical information, and construct datasets from historical sources. Specifically, we investigate the capabilities of mLLMs in performing (1) Optical Character Recognition (OCR), (2) OCR Post-Correction, and (3) Named Entity Recognition (NER) tasks on a set of city directories published in German between 1754 and 1870. First, we benchmark the off-the-shelf transcription accuracy of both mLLMs and conventional OCR models. We find that the best-performing mLLM model significantly outperforms conventional state-of-the-art OCR models and other frontier mLLMs. Second, we are the first to introduce multimodal post-correction of OCR output using mLLMs. We find that this novel approach leads to a drastic improvement in transcription accuracy and consistently produces highly accurate transcriptions (<1% CER), without any image pre-processing or model fine-tuning. Third, we demonstrate that mLLMs can efficiently recognize entities in transcriptions of historical documents and parse them into structured dataset formats. Our findings provide early evidence for the long-term potential of mLLMs to introduce a paradigm shift in the approaches to historical data collection and document transcription.
- Abstract(参考訳): 我々は,マルチモーダル大規模言語モデル (mLLMs) を用いて,研究者が歴史的文書を転写し,関連する歴史的情報を抽出し,過去の資料からデータセットを構築するのにどう役立つかを検討する。
具体的には,(1)光学文字認識(OCR),(2)OCR後補正(OCR),(3)名前付きエンティティ認識(NER)タスクをドイツ語で1754年から1870年まで発行した。
まず,mLLMと従来のOCRモデルの両方のオフ・ザ・シェルフ転写精度をベンチマークする。
その結果,mLLMモデルの性能は従来のOCRモデルと他のフロンティアmLLMよりも優れていた。
第2に、mLLMを用いたOCR出力のマルチモーダル後補正を初めて導入する。
この手法は転写精度を大幅に向上させ,画像前処理やモデル微調整を伴わずに高い精度 (1% CER) の転写を一貫して生成する。
第3に、mLLMsは、過去の文書の書き起こしにおけるエンティティを効率的に認識し、それらを構造化されたデータセット形式に解析できることを実証する。
本研究は,mLLMsの長期的可能性を示す初期の証拠として,過去のデータ収集と文書の書き起こしへのアプローチのパラダイムシフトを紹介するものである。
関連論文リスト
- RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Large Language Models for Page Stream Segmentation [0.03495246564946555]
ページストリーム(PSS)は、大規模に自動化されたドキュメント処理に必要な必須条件である。
本稿では,商用光文字認識(OCR)アノテーションを特徴とする拡張ベンチマークであるTABME++を紹介する。
我々は,パラメータ効率のよいデコーダモデルに着目し,大規模言語モデル(LLM)の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-21T20:28:42Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Coupling Speech Encoders with Downstream Text Models [4.679869237248675]
カスケード音声翻訳モデルを構築するためのモジュラー手法を提案する。
我々は,与えられたタスクに対して,最先端音声認識(ASR)とテキスト翻訳(MT)の性能を維持する。
論文 参考訳(メタデータ) (2024-07-24T19:29:13Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - NER-to-MRC: Named-Entity Recognition Completely Solving as Machine
Reading Comprehension [29.227500985892195]
NER は NER-to-MRC と呼ばれる機械読解問題である。
我々は NER タスクを MRC で解くのに適した形式に効率よく変換する。
我々は、WNUT-16データセットを最大11.24%改善し、外部データなしで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-06T08:05:22Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。