論文の概要: Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents
- arxiv url: http://arxiv.org/abs/2504.00414v1
- Date: Tue, 01 Apr 2025 04:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.935498
- Title: Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents
- Title(参考訳): 歴史的文書におけるOCR, OCRポストコレクション, 名前付きエンティティ認識のためのマルチモーダルLCM
- Authors: Gavin Greif, Niclas Griesshaber, Robin Greif,
- Abstract要約: 我々は,マルチモーダル大規模言語モデル (mLLM) が研究者の歴史的文書の書き起こしにどう役立つかを検討する。
我々は,mLLMと従来のOCRモデルの両方の既製の転写精度をベンチマークした。
我々はまず,mLLMを用いたOCR出力のマルチモーダル後補正を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore how multimodal Large Language Models (mLLMs) can help researchers transcribe historical documents, extract relevant historical information, and construct datasets from historical sources. Specifically, we investigate the capabilities of mLLMs in performing (1) Optical Character Recognition (OCR), (2) OCR Post-Correction, and (3) Named Entity Recognition (NER) tasks on a set of city directories published in German between 1754 and 1870. First, we benchmark the off-the-shelf transcription accuracy of both mLLMs and conventional OCR models. We find that the best-performing mLLM model significantly outperforms conventional state-of-the-art OCR models and other frontier mLLMs. Second, we are the first to introduce multimodal post-correction of OCR output using mLLMs. We find that this novel approach leads to a drastic improvement in transcription accuracy and consistently produces highly accurate transcriptions (<1% CER), without any image pre-processing or model fine-tuning. Third, we demonstrate that mLLMs can efficiently recognize entities in transcriptions of historical documents and parse them into structured dataset formats. Our findings provide early evidence for the long-term potential of mLLMs to introduce a paradigm shift in the approaches to historical data collection and document transcription.
- Abstract(参考訳): 我々は,マルチモーダル大規模言語モデル (mLLMs) を用いて,研究者が歴史的文書を転写し,関連する歴史的情報を抽出し,過去の資料からデータセットを構築するのにどう役立つかを検討する。
具体的には,(1)光学文字認識(OCR),(2)OCR後補正(OCR),(3)名前付きエンティティ認識(NER)タスクをドイツ語で1754年から1870年まで発行した。
まず,mLLMと従来のOCRモデルの両方のオフ・ザ・シェルフ転写精度をベンチマークする。
その結果,mLLMモデルの性能は従来のOCRモデルと他のフロンティアmLLMよりも優れていた。
第2に、mLLMを用いたOCR出力のマルチモーダル後補正を初めて導入する。
この手法は転写精度を大幅に向上させ,画像前処理やモデル微調整を伴わずに高い精度 (1% CER) の転写を一貫して生成する。
第3に、mLLMsは、過去の文書の書き起こしにおけるエンティティを効率的に認識し、それらを構造化されたデータセット形式に解析できることを実証する。
本研究は,mLLMsの長期的可能性を示す初期の証拠として,過去のデータ収集と文書の書き起こしへのアプローチのパラダイムシフトを紹介するものである。
関連論文リスト
- SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents [0.0]
本稿では,中国古来のノンナラティブ文書に適した2段階の事前処理フレームワークである知識認識前処理(KAP)を提案する。
Hybrid Retrievalとの互換性を向上させることで、KAPは検索アーキテクチャ自体を変更することなく、スパース法とDense Retrieval法の精度を向上させる。
論文 参考訳(メタデータ) (2025-03-11T14:01:03Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Large Language Models for Page Stream Segmentation [0.03495246564946555]
ページストリーム(PSS)は、大規模に自動化されたドキュメント処理に必要な必須条件である。
本稿では,商用光文字認識(OCR)アノテーションを特徴とする拡張ベンチマークであるTABME++を紹介する。
我々は,パラメータ効率のよいデコーダモデルに着目し,大規模言語モデル(LLM)の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-21T20:28:42Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Coupling Speech Encoders with Downstream Text Models [4.679869237248675]
カスケード音声翻訳モデルを構築するためのモジュラー手法を提案する。
我々は,与えられたタスクに対して,最先端音声認識(ASR)とテキスト翻訳(MT)の性能を維持する。
論文 参考訳(メタデータ) (2024-07-24T19:29:13Z) - Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-02T12:57:42Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。