論文の概要: Invoice Information Extraction: Methods and Performance Evaluation
- arxiv url: http://arxiv.org/abs/2510.15727v2
- Date: Wed, 22 Oct 2025 09:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.631307
- Title: Invoice Information Extraction: Methods and Performance Evaluation
- Title(参考訳): 請求書情報抽出:方法と性能評価
- Authors: Sai Yashwant, Anurag Dubey, Praneeth Paikray, Gantala Thulsiram,
- Abstract要約: そこで本研究では,抽出したデータの精度を注釈付き地上真実に対して評価するための評価指標(EM)を提案する。
このアプローチでは、スキャンされた請求書やデジタル請求書を前処理し、DoclingとLlamaCloud Servicesを使用して請求書番号、日付、総金額、ベンダーの詳細などのキーフィールドを特定し、抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents methods for extracting structured information from invoice documents and proposes a set of evaluation metrics (EM) to assess the accuracy of the extracted data against annotated ground truth. The approach involves pre-processing scanned or digital invoices, applying Docling and LlamaCloud Services to identify and extract key fields such as invoice number, date, total amount, and vendor details. To ensure the reliability of the extraction process, we establish a robust evaluation framework comprising field-level precision, consistency check failures, and exact match accuracy. The proposed metrics provide a standardized way to compare different extraction methods and highlight strengths and weaknesses in field-specific performance.
- Abstract(参考訳): 本稿では、請求書文書から構造化された情報を抽出する手法を提案し、抽出したデータの正確性を評価するための評価指標セット(EM)を提案する。
このアプローチでは、スキャンされた請求書やデジタル請求書を前処理し、DoclingとLlamaCloud Servicesを使用して請求書番号、日付、総金額、ベンダーの詳細などのキーフィールドを特定し、抽出する。
抽出プロセスの信頼性を確保するため,フィールドレベルの精度,整合性チェックの失敗,正確な一致精度を含むロバストな評価フレームワークを構築した。
提案手法は,異なる抽出法を比較し,フィールド固有の性能の強さと弱点を明らかにするための標準化された手法を提供する。
関連論文リスト
- Towards Effective Extraction and Evaluation of Factual Claims [1.8262547855491458]
LLM(Large Language Models)が生成する長文コンテンツを事実チェックするための一般的な戦略は、独立して検証可能な単純なクレームを抽出することである。
本稿では,ファクトチェックの文脈におけるクレーム抽出と,このフレームワークを適用するための自動化された,スケーラブルで,かつレプリケート可能な手法を提案する。
また, LLMに基づくクレーム抽出手法であるCrimifyを導入し, 評価フレームワークにおける既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-15T16:58:05Z) - Exploring Information Retrieval Landscapes: An Investigation of a Novel Evaluation Techniques and Comparative Document Splitting Methods [0.0]
本研究では, 教科書の構造的性質, 記事の簡潔さ, 小説の物語的複雑さについて, 明確な検索戦略が必要であることを示した。
オープンソースのモデルを用いて,質問対と回答対の包括的データセットを生成する新しい評価手法を提案する。
評価には、SequenceMatcher、BLEU、METEOR、BERT Scoreなどの重み付けされたスコアを使用して、システムの正確性と妥当性を評価する。
論文 参考訳(メタデータ) (2024-09-13T02:08:47Z) - Reading Order Independent Metrics for Information Extraction in Handwritten Documents [3.09712167177251]
本稿では,手書き文書における情報抽出評価に適した読解順序に依存しない指標セットを提案し,公開する。
タスクを正しく評価するために、最小限のメトリクスセットと考えるものを推奨するために、メトリクスの振舞いの詳細な分析を行います。
論文 参考訳(メタデータ) (2024-04-29T12:49:30Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Similar Document Template Matching Algorithm [0.0]
本研究は,医療文書の総合的検証手法について概説する。
テンプレート抽出、比較、不正検出に高度な技術が組み込まれている。
この手法は、医用文書検証に対する堅牢なアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-21T15:13:18Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。