論文の概要: Digitization of Document and Information Extraction using OCR
- arxiv url: http://arxiv.org/abs/2506.11156v1
- Date: Wed, 11 Jun 2025 16:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.522077
- Title: Digitization of Document and Information Extraction using OCR
- Title(参考訳): OCRを用いた文書のデジタル化と情報抽出
- Authors: Rasha Sinha, Rekha B S,
- Abstract要約: 本論文は,光学文字認識(OCR)技術とLarge Language Models(LLM)を融合したテキスト抽出フレームワークを提案する。
スキャンされたファイルはOCRエンジンで処理され、デジタルファイルはレイアウト対応のライブラリを通して解釈される。
そして、抽出した原文をLLMで解析して、キー値対を特定し、あいまいさを解消する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Retrieving accurate details from documents is a crucial task, especially when handling a combination of scanned images and native digital formats. This document presents a combined framework for text extraction that merges Optical Character Recognition (OCR) techniques with Large Language Models (LLMs) to deliver structured outputs enriched by contextual understanding and confidence indicators. Scanned files are processed using OCR engines, while digital files are interpreted through layout-aware libraries. The extracted raw text is subsequently analyzed by an LLM to identify key-value pairs and resolve ambiguities. A comparative analysis of different OCR tools is presented to evaluate their effectiveness concerning accuracy, layout recognition, and processing speed. The approach demonstrates significant improvements over traditional rule-based and template-based methods, offering enhanced flexibility and semantic precision across different document categories
- Abstract(参考訳): ドキュメントから正確な詳細を取得することは、特にスキャンされた画像とネイティブデジタルフォーマットの組み合わせを扱う場合、重要なタスクである。
本論文は,光学的文字認識(OCR)技術とLarge Language Models(LLM)を融合して,文脈的理解と信頼度指標によって強化された構造化された出力を提供する,テキスト抽出のためのフレームワークを提案する。
スキャンされたファイルはOCRエンジンで処理され、デジタルファイルはレイアウト対応のライブラリを通して解釈される。
その後、抽出した原文をLLMで解析して、キー値対を特定し、あいまいさを解消する。
異なるOCRツールの比較分析を行い、精度、レイアウト認識、処理速度についての有効性を評価する。
このアプローチは、従来のルールベースおよびテンプレートベースのメソッドよりも大幅に改善され、さまざまなドキュメントカテゴリにわたる柔軟性とセマンティック精度が向上する。
関連論文リスト
- Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation [6.385732495789276]
ドキュメントアライメントは、自動フォーム処理、異常検出、ワークフロー自動化など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。
文書アライメントの伝統的な手法は、ホモグラフのような幾何学的変換を推定するために、キーポイント、エッジ、テクスチャのような画像ベースの特徴に依存している。
本稿では,光学文字認識(OCR)出力をホモグラフィー推定の特徴として活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-25T01:20:32Z) - TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。
我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。
画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。
このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T17:07:22Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Information Extraction from Scanned Invoice Images using Text Analysis
and Layout Features [0.0]
OCRMinerは、人間が使用するのと同様の方法で文書を処理するように設計されている。
このシステムは、英語で90%、チェコ語で88%の請求データを復元することができる。
論文 参考訳(メタデータ) (2022-08-08T09:46:33Z) - Detection Masking for Improved OCR on Noisy Documents [8.137198664755596]
本稿では,文書上でのOCRの品質向上を目的として,マスキングシステムによる検出ネットワークの改良について述べる。
本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。
論文 参考訳(メタデータ) (2022-05-17T11:59:18Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。