Fugu-MT 論文翻訳(概要): CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset

論文の概要: CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset

arxiv url: http://arxiv.org/abs/2406.04493v1
Date: Thu, 6 Jun 2024 20:38:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 18:07:23.083488
Title: CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset
Title（参考訳）: CORU: 総合的なOCR解析とデータセットの受信
Authors: Abdelrahman Abdallah, Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Ibrahim Abdelhalim, Mohamed Elkasaby, Yasser ElBendary, Adam Jatowt,
Abstract要約: 本稿では,CORU(Comprehensive Post-OCR Parsing and Receipt Understanding dataset)を紹介する。 CORUはスーパーマーケットや衣料品店など、さまざまな小売店からの2万以上の注釈付きレシートで構成されている。従来の手法の有効性を評価するため,CORU上でのモデル範囲のベースライン性能を確立した。
参考スコア（独自算出の注目度）: 12.828786692835369
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the fields of Optical Character Recognition (OCR) and Natural Language Processing (NLP), integrating multilingual capabilities remains a critical challenge, especially when considering languages with complex scripts such as Arabic. This paper introduces the Comprehensive Post-OCR Parsing and Receipt Understanding Dataset (CORU), a novel dataset specifically designed to enhance OCR and information extraction from receipts in multilingual contexts involving Arabic and English. CORU consists of over 20,000 annotated receipts from diverse retail settings, including supermarkets and clothing stores, alongside 30,000 annotated images for OCR that were utilized to recognize each detected line, and 10,000 items annotated for detailed information extraction. These annotations capture essential details such as merchant names, item descriptions, total prices, receipt numbers, and dates. They are structured to support three primary computational tasks: object detection, OCR, and information extraction. We establish the baseline performance for a range of models on CORU to evaluate the effectiveness of traditional methods, like Tesseract OCR, and more advanced neural network-based approaches. These baselines are crucial for processing the complex and noisy document layouts typical of real-world receipts and for advancing the state of automated multilingual document processing. Our datasets are publicly accessible (https://github.com/Update-For-Integrated-Business-AI/CORU).
Abstract（参考訳）: 光文字認識(OCR)と自然言語処理(NLP)の分野では、アラビア語のような複雑なスクリプトを持つ言語を考える場合、多言語機能の統合は依然として重要な課題である。本稿では,OCRの強化を目的とした新しいデータセットであるComprehensive Post-OCR Parsing and Receipt Understanding Dataset (CORU)を紹介する。 CORUは、スーパーマーケットや衣料品店など様々な小売店から2万件以上のアノテートされたレシートと、検出されたラインを認識したOCRの3万件のアノテートされたイメージと、詳細な情報抽出のために1万件以上のアノテートされたアイテムで構成されている。これらの注釈は、商人の名前、商品の説明、総価格、領収書番号、日付などの重要な詳細を捉えている。それらは、オブジェクト検出、OCR、情報抽出の3つの主要な計算タスクをサポートするように構成されている。我々は、Tesseract OCRのような従来の手法の有効性と、より高度なニューラルネットワークベースのアプローチを評価するために、CORU上のさまざまなモデルのベースライン性能を確立する。これらのベースラインは、実世界のレシートに典型的な複雑でノイズの多いドキュメントレイアウトの処理と、自動多言語文書処理の進行に不可欠である。私たちのデータセットは公開されています(https://github.com/Update-For-Integrated-Business-AI/CORU)。

関連論文リスト

VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文参考訳（メタデータ） (2025-04-04T17:39:53Z)
COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.3062731746155414]
COMI-lingUAは、DevanagariとRomanスクリプトの3つの専門家アノテータによって評価された100,970のインスタンスを含む、コードミックステキスト用の手動アノテートデータセットとしては最大である。このデータセットは5つの基本的なNLPタスクをサポートしている。言語識別、マトリックス言語識別、音声タギング、名前付きエンティティ認識、翻訳である。我々は、COMIINGUAを用いてこれらのタスク上でLLMを評価し、現在の多言語モデリング戦略の限界を明らかにし、コード混合テキスト処理機能の改善の必要性を強調した。
論文参考訳（メタデータ） (2025-03-27T16:36:39Z)
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文参考訳（メタデータ） (2024-12-20T18:05:22Z)
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。 39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文参考訳（メタデータ） (2024-12-03T07:03:25Z)
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation [33.66939971907121]
評価の結果,GPT-4Vはラテン内容の認識や理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることが明らかとなった。一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。
論文参考訳（メタデータ） (2023-10-25T17:38:55Z)
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。 EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文参考訳（メタデータ） (2023-10-16T04:20:16Z)
AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification [14.386767741945256]
AMuRDは、レシートから情報を取り出すために特別に設計された、新しい多言語人間アノテーション付きデータセットである。各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
論文参考訳（メタデータ） (2023-09-18T14:18:19Z)
bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。提案手法は現在のベンガルOCRシステムよりも好ましい。
論文参考訳（メタデータ） (2023-08-21T11:35:28Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。 XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文参考訳（メタデータ） (2023-05-19T18:00:03Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文参考訳（メタデータ） (2021-04-15T21:43:13Z)
ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction [70.71240097723745]
SROIEの技術的課題、重要性、および巨大な商業的可能性を認識し、私たちはSROIEでICDAR 2019コンペティションを開催しました。競争のために1000全体のスキャンされたレシート画像とアノテーションを備えた新しいデータセットが作成されます。本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。
論文参考訳（メタデータ） (2021-03-18T12:33:41Z)
Cross-Lingual Low-Resource Set-to-Description Retrieval for Global E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文参考訳（メタデータ） (2020-05-17T08:10:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。