論文の概要: ReceiptSense: Beyond Traditional OCR -- A Dataset for Receipt Understanding
- arxiv url: http://arxiv.org/abs/2406.04493v2
- Date: Wed, 10 Sep 2025 23:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:23.993043
- Title: ReceiptSense: Beyond Traditional OCR -- A Dataset for Receipt Understanding
- Title(参考訳): ReceiptSense: 従来のOCRを超えて - Receipt理解のためのデータセット
- Authors: Abdelrahman Abdallah, Mohamed Mounis, Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Mohamed Mahmoud, Ibrahim Abdelhalim, Mohamed Elkasaby, Yasser ElBendary, Adam Jatowt,
- Abstract要約: データセットはアラビア語のレシート理解のために設計された包括的なデータセットである。
データセットには、さまざまな小売設定からの2万のアノテートレシート、30,000のOCRアノテートイメージ、10,000のアイテムレベルのアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 17.47301087011574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual OCR and information extraction from receipts remains challenging, particularly for complex scripts like Arabic. We introduce \dataset, a comprehensive dataset designed for Arabic-English receipt understanding comprising 20,000 annotated receipts from diverse retail settings, 30,000 OCR-annotated images, and 10,000 item-level annotations, and a new Receipt QA subset with 1265 receipt images paired with 40 question-answer pairs each to support LLM evaluation for receipt understanding. The dataset captures merchant names, item descriptions, prices, receipt numbers, and dates to support object detection, OCR, and information extraction tasks. We establish baseline performance using traditional methods (Tesseract OCR) and advanced neural networks, demonstrating the dataset's effectiveness for processing complex, noisy real-world receipt layouts. Our publicly accessible dataset advances automated multilingual document processing research (see https://github.com/Update-For-Integrated-Business-AI/CORU ).
- Abstract(参考訳): 多言語OCRとレシートからの情報抽出は、特にアラビア語のような複雑なスクリプトでは、依然として困難である。
そこで我々は,多様な小売店舗からの2万件の注釈付きレシート,3万件のOCR注釈付き画像,10,000件の項目レベルのアノテーションを含むアラビア英語のレシート理解のための包括的データセットである \dataset と,レシート理解のためのLLM評価をサポートするために,1265のレシート画像と40の質問応答ペアを組み合わせたReceipt QAサブセットを紹介した。
データセットは、商品名、アイテムの説明、価格、レシート番号、日付をキャプチャして、オブジェクト検出、OCR、情報抽出タスクをサポートする。
従来の手法(Tesseract OCR)と先進ニューラルネットワークを用いてベースライン性能を確立し,複雑な実世界のレシートレイアウトを処理するためのデータセットの有効性を示す。
私たちの公開データセットは、自動多言語文書処理の研究を前進させています(https://github.com/Update-For-Integrated-Business-AI/CORU を参照)。
関連論文リスト
- SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition [0.995313069446686]
SARDは、書籍スタイルのドキュメントをシミュレートするための、大規模で合成的に生成されたデータセットである。
6億9千万の単語を含む843,622の文書画像からなり、10の異なるアラビア語のフォントに散らばって、タイポグラフィーのカバー範囲を広く確保している。
スキャンされた文書から得られたデータセットとは異なり、SARDは現実世界のノイズや歪みをなくし、モデルトレーニングのためのクリーンで制御された環境を提供する。
論文 参考訳(メタデータ) (2025-05-30T13:47:54Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.3062731746155414]
COMI-lingUAは、DevanagariとRomanスクリプトの3つの専門家アノテータによって評価された100,970のインスタンスを含む、コードミックステキスト用の手動アノテートデータセットとしては最大である。
このデータセットは5つの基本的なNLPタスクをサポートしている。言語識別、マトリックス言語識別、音声タギング、名前付きエンティティ認識、翻訳である。
我々は、COMIINGUAを用いてこれらのタスク上でLLMを評価し、現在の多言語モデリング戦略の限界を明らかにし、コード混合テキスト処理機能の改善の必要性を強調した。
論文 参考訳(メタデータ) (2025-03-27T16:36:39Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and
In-depth Evaluation [33.66939971907121]
評価の結果,GPT-4Vはラテン内容の認識や理解に優れていたが,多言語シナリオや複雑なタスクに苦慮していることが明らかとなった。
一般に、多様なOCRタスクを扱う汎用性にもかかわらず、GPT-4Vは既存の最先端のOCRモデルより優れているわけではない。
論文 参考訳(メタデータ) (2023-10-25T17:38:55Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification [14.386767741945256]
AMuRDは、レシートから情報を取り出すために特別に設計された、新しい多言語人間アノテーション付きデータセットである。
各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。
この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
論文 参考訳(メタデータ) (2023-09-18T14:18:19Z) - bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。
提案手法は現在のベンガルOCRシステムよりも好ましい。
論文 参考訳(メタデータ) (2023-08-21T11:35:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction [70.71240097723745]
SROIEの技術的課題、重要性、および巨大な商業的可能性を認識し、私たちはSROIEでICDAR 2019コンペティションを開催しました。
競争のために1000全体のスキャンされたレシート画像とアノテーションを備えた新しいデータセットが作成されます。
本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。
論文 参考訳(メタデータ) (2021-03-18T12:33:41Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。