論文の概要: AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification
- arxiv url: http://arxiv.org/abs/2309.09800v3
- Date: Tue, 26 Mar 2024 16:05:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:10:34.106639
- Title: AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification
- Title(参考訳): AMuRD:キー情報抽出と分類のための注釈付きアラビア英語レセプトデータセット
- Authors: Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt,
- Abstract要約: AMuRDは、レシートから情報を取り出すために特別に設計された、新しい多言語人間アノテーション付きデータセットである。
各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。
この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
- 参考スコア(独自算出の注目度): 14.386767741945256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extraction of key information from receipts is a complex task that involves the recognition and extraction of text from scanned receipts. This process is crucial as it enables the retrieval of essential content and organizing it into structured documents for easy access and analysis. In this paper, we present AMuRD, a novel multilingual human-annotated dataset specifically designed for information extraction from receipts. This dataset comprises $47,720$ samples and addresses the key challenges in information extraction and item classification - the two critical aspects of data analysis in the retail industry. Each sample includes annotations for item names and attributes such as price, brand, and more. This detailed annotation facilitates a comprehensive understanding of each item on the receipt. Furthermore, the dataset provides classification into $44$ distinct product categories. This classification feature allows for a more organized and efficient analysis of the items, enhancing the usability of the dataset for various applications. In our study, we evaluated various language model architectures, e.g., by fine-tuning LLaMA models on the AMuRD dataset. Our approach yielded exceptional results, with an F1 score of 97.43\% and accuracy of 94.99\% in information extraction and classification, and an even higher F1 score of 98.51\% and accuracy of 97.06\% observed in specific tasks. The dataset and code are publicly accessible for further researchhttps://github.com/Update-For-Integrated-Business-AI/AMuRD.
- Abstract(参考訳): レシートからキー情報を抽出することは、スキャンされたレシートからテキストの認識と抽出を含む複雑なタスクである。
このプロセスは、本質的なコンテンツを検索し、構造化文書に整理し、容易にアクセスおよび分析できるようにするため、極めて重要である。
本稿では,レシートから情報を取り出すための新しい多言語人間アノテーションデータセットであるAMuRDを提案する。
このデータセットは47,720ドルのサンプルで構成され、情報抽出とアイテム分類における重要な課題に対処する。
各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。
この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
さらに、データセットは44ドルの異なる製品カテゴリに分類する。
この分類機能は、アイテムのより組織的で効率的な分析を可能にし、さまざまなアプリケーションにおけるデータセットのユーザビリティを高める。
本研究では,AMuRDデータセット上のLLaMAモデルを微調整することにより,様々な言語モデルアーキテクチャ,例えば,評価を行った。
その結果, F1スコアは97.43\%, F1スコアは94.99\%, F1スコアは98.51\%, F1スコアは97.06\%であった。
データセットとコードは、さらなるリサーチ https://github.com/Update-For-Integrated-Business-AI/AMuRD.comで公開されている。
関連論文リスト
- CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset [12.828786692835369]
本稿では,CORU(Comprehensive Post-OCR Parsing and Receipt Understanding dataset)を紹介する。
CORUはスーパーマーケットや衣料品店など、さまざまな小売店からの2万以上の注釈付きレシートで構成されている。
従来の手法の有効性を評価するため,CORU上でのモデル範囲のベースライン性能を確立した。
論文 参考訳(メタデータ) (2024-06-06T20:38:15Z) - Deep Learning Based Named Entity Recognition Models for Recipes [7.507956305171027]
名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
私たちは26,445のフレーズを累積してデータセットを作成しました。
金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。
深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
論文 参考訳(メタデータ) (2024-02-27T12:03:56Z) - Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Knowledge-Enhanced Multi-Label Few-Shot Product Attribute-Value
Extraction [4.511923587827302]
既存の属性値抽出モデルは、トレーニングのために大量のラベル付きデータを必要とする。
新しい属性値ペアを持つ新製品は、現実世界のeコマースで毎日市場に出回っている。
そこで我々は,ネットワークをベースとした知識強化学習フレームワーク(KEAF)を提案し,より差別的なプロトタイプを学習する。
論文 参考訳(メタデータ) (2023-08-16T14:58:12Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。