論文の概要: AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key
Information Extraction and Classification
- arxiv url: http://arxiv.org/abs/2309.09800v1
- Date: Mon, 18 Sep 2023 14:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:12:22.910380
- Title: AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key
Information Extraction and Classification
- Title(参考訳): AMuRD: 言語間鍵情報抽出・分類のためのアノテーション付き多言語レセプトデータセット
- Authors: Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser
Elbendary, Adam Jatowt
- Abstract要約: 重要な情報抽出は、スキャンされたレシートからテキストを認識して抽出することである。
本稿では,レセプション抽出,情報抽出,項目分類における重要な課題に対処する,新しい多言語データセットを提案する。
- 参考スコア(独自算出の注目度): 15.434785564716796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key information extraction involves recognizing and extracting text from
scanned receipts, enabling retrieval of essential content, and organizing it
into structured documents. This paper presents a novel multilingual dataset for
receipt extraction, addressing key challenges in information extraction and
item classification. The dataset comprises $47,720$ samples, including
annotations for item names, attributes like (price, brand, etc.), and
classification into $44$ product categories. We introduce the InstructLLaMA
approach, achieving an F1 score of $0.76$ and an accuracy of $0.68$ for key
information extraction and item classification. We provide code, datasets, and
checkpoints.\footnote{\url{https://github.com/Update-For-Integrated-Business-AI/AMuRD}}.
- Abstract(参考訳): 鍵となる情報抽出は、スキャンされたレシートからテキストを認識・抽出し、本質的なコンテンツの検索を可能にし、構造化された文書に整理することである。
本稿では,レセプション抽出,情報抽出,項目分類における課題に対処する新しい多言語データセットを提案する。
データセットには47,720ドルのサンプルが含まれており、アイテム名、属性(価格、ブランドなど)、製品カテゴリの分類が含まれている。
InstructLLaMAアプローチを導入し、F1スコアを0.76$、キー情報抽出とアイテム分類の精度を0.68$とする。
コード、データセット、チェックポイントを提供します。
関連スポンサーコンテンツ https://github.com/Update-For-Integrated-Business-AI/AMuRD}}。
関連論文リスト
- CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset [12.828786692835369]
本稿では,CORU(Comprehensive Post-OCR Parsing and Receipt Understanding dataset)を紹介する。
CORUはスーパーマーケットや衣料品店など、さまざまな小売店からの2万以上の注釈付きレシートで構成されている。
従来の手法の有効性を評価するため,CORU上でのモデル範囲のベースライン性能を確立した。
論文 参考訳(メタデータ) (2024-06-06T20:38:15Z) - Deep Learning Based Named Entity Recognition Models for Recipes [7.507956305171027]
名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
私たちは26,445のフレーズを累積してデータセットを作成しました。
金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。
深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
論文 参考訳(メタデータ) (2024-02-27T12:03:56Z) - Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Knowledge-Enhanced Multi-Label Few-Shot Product Attribute-Value
Extraction [4.511923587827302]
既存の属性値抽出モデルは、トレーニングのために大量のラベル付きデータを必要とする。
新しい属性値ペアを持つ新製品は、現実世界のeコマースで毎日市場に出回っている。
そこで我々は,ネットワークをベースとした知識強化学習フレームワーク(KEAF)を提案し,より差別的なプロトタイプを学習する。
論文 参考訳(メタデータ) (2023-08-16T14:58:12Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。