論文の概要: AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key
Information Extraction and Classification
- arxiv url: http://arxiv.org/abs/2309.09800v1
- Date: Mon, 18 Sep 2023 14:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:12:22.910380
- Title: AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key
Information Extraction and Classification
- Title(参考訳): AMuRD: 言語間鍵情報抽出・分類のためのアノテーション付き多言語レセプトデータセット
- Authors: Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser
Elbendary, Adam Jatowt
- Abstract要約: 重要な情報抽出は、スキャンされたレシートからテキストを認識して抽出することである。
本稿では,レセプション抽出,情報抽出,項目分類における重要な課題に対処する,新しい多言語データセットを提案する。
- 参考スコア(独自算出の注目度): 15.434785564716796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key information extraction involves recognizing and extracting text from
scanned receipts, enabling retrieval of essential content, and organizing it
into structured documents. This paper presents a novel multilingual dataset for
receipt extraction, addressing key challenges in information extraction and
item classification. The dataset comprises $47,720$ samples, including
annotations for item names, attributes like (price, brand, etc.), and
classification into $44$ product categories. We introduce the InstructLLaMA
approach, achieving an F1 score of $0.76$ and an accuracy of $0.68$ for key
information extraction and item classification. We provide code, datasets, and
checkpoints.\footnote{\url{https://github.com/Update-For-Integrated-Business-AI/AMuRD}}.
- Abstract(参考訳): 鍵となる情報抽出は、スキャンされたレシートからテキストを認識・抽出し、本質的なコンテンツの検索を可能にし、構造化された文書に整理することである。
本稿では,レセプション抽出,情報抽出,項目分類における課題に対処する新しい多言語データセットを提案する。
データセットには47,720ドルのサンプルが含まれており、アイテム名、属性(価格、ブランドなど)、製品カテゴリの分類が含まれている。
InstructLLaMAアプローチを導入し、F1スコアを0.76$、キー情報抽出とアイテム分類の精度を0.68$とする。
コード、データセット、チェックポイントを提供します。
関連スポンサーコンテンツ https://github.com/Update-For-Integrated-Business-AI/AMuRD}}。
関連論文リスト
- Knowledge-Enhanced Multi-Label Few-Shot Product Attribute-Value
Extraction [4.511923587827302]
既存の属性値抽出モデルは、トレーニングのために大量のラベル付きデータを必要とする。
新しい属性値ペアを持つ新製品は、現実世界のeコマースで毎日市場に出回っている。
そこで我々は,ネットワークをベースとした知識強化学習フレームワーク(KEAF)を提案し,より差別的なプロトタイプを学習する。
論文 参考訳(メタデータ) (2023-08-16T14:58:12Z) - Multi-task Item-attribute Graph Pre-training for Strict Cold-start Item
Recommendation [71.5871100348448]
ColdGPTは、アイテム内容からきめ細かい属性を抽出することにより、アイテム属性相関をアイテム属性グラフにモデル化する。
ColdGPTは、さまざまな利用可能なデータソース、すなわちアイテムの内容、過去の購入シーケンス、既存のアイテムのレビューテキストから、知識をアイテム属性グラフに転送する。
大規模な実験により、ColdGPTは既存のSCSレコメンデーターを大きなマージンで一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-26T07:04:47Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [49.224821054873814]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Multi-Document Keyphrase Extraction: A Literature Review and the First
Dataset [24.91326715164367]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。
ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-10-03T19:10:28Z) - MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction [48.55908127994688]
我々は、VIE(MatchVIE)のためのグラフニューラルネットワークに基づく新しいキー値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスすることができる。
我々は、エンコードされた値の不安定性に対処するために、単純だが効果的な操作であるNum2Vecを導入する。
論文 参考訳(メタデータ) (2021-06-24T12:06:29Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - Abstractive Information Extraction from Scanned Invoices (AIESI) using
End-to-end Sequential Approach [0.0]
私たちは、Payee名、総数、住所など、データに興味を持っています。
抽出された情報は、データの完全な洞察を得るのに役立つ。高速なドキュメント検索、データベースの効率的なインデックス付け、データ分析などに役立つ。
本稿では,Word wise BiLSTMを用いて,請求書からすべての視覚的特徴とテキスト的特徴をアンサンブルし,重要な請求書パラメータを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-09-12T05:14:28Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。