論文の概要: CrossLingR: A Comprehensive Multilingual Receipt Dataset for
Cross-Language Information Extraction and Classification
- arxiv url: http://arxiv.org/abs/2309.09800v2
- Date: Sun, 11 Feb 2024 16:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 22:16:50.328871
- Title: CrossLingR: A Comprehensive Multilingual Receipt Dataset for
Cross-Language Information Extraction and Classification
- Title(参考訳): CrossLingR:クロスランゲージ情報抽出と分類のための総合多言語受信データセット
- Authors: Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser
Elbendary, Adam Jatowt
- Abstract要約: 本研究は,レシート情報抽出と項目分類の分野における進歩を促進するために設計された,拡張的で斬新な多言語データセットを提案する。
本データセットは,47,720個の注釈付きサンプルを包含し,商品名,価格やブランドなどの関連属性を詳述し,44種類の製品カテゴリに分類した。
鍵情報抽出と項目分類のタスクにおいて,F1スコア0.76,精度0.68で証明された,重要な有効性を示す先駆的手法であるInstructLLaMA法を公表する。
- 参考スコア(独自算出の注目度): 15.434785564716796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The process of key information extraction is critical for converting scanned
receipts into structured, accessible documents, facilitating the efficient
retrieval of vital data. This research introduces an expansive, novel
multilingual dataset designed to propel advancements in the domain of receipt
information extraction and item classification. Our dataset encompasses 47,720
annotated samples, detailed with item names, associated attributes such as
price and brand, and organized into 44 distinct product categories. We unveil
the InstructLLaMA methodology, a pioneering approach that demonstrates
significant effectiveness, evidenced by an F1 score of 0.76 and an accuracy of
0.68 in tasks of key information extraction and item classification. To support
further research and application development, we make available our
comprehensive dataset, the InstructLLaMA model, and relevant resources at
https://github.com/Update-For-Integrated-Business-AI/AMuRD.
- Abstract(参考訳): キー情報抽出のプロセスは、スキャンされたレシートを構造化されたアクセス可能なドキュメントに変換するために重要であり、バイタルデータの効率的な検索を容易にする。
本研究は,レシート情報抽出と項目分類の分野における進歩を促進するために設計された,拡張的で斬新な多言語データセットを提案する。
本データセットは,47,720個の注釈付きサンプルを包含し,商品名,価格やブランドなどの関連属性を詳述し,44種類の製品カテゴリに分類した。
鍵情報抽出と項目分類のタスクにおいて,F1スコア0.76,精度0.68で証明された,重要な有効性を示す先駆的手法であるInstructLLaMA法を公表する。
さらなる研究とアプリケーション開発を支援するため、私たちはhttps://github.com/Update-For-Integrated-Business-AI/AMuRDで包括的なデータセット、InstructLLaMAモデル、関連するリソースを利用可能にしています。
関連論文リスト
- Deep Learning Based Named Entity Recognition Models for Recipes [7.507956305171027]
名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
私たちは26,445のフレーズを累積してデータセットを作成しました。
金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。
深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
論文 参考訳(メタデータ) (2024-02-27T12:03:56Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - Utilizing Weak Supervision To Generate Indonesian Conservation Dataset [3.357014575278386]
迅速かつ大規模なデータセット作成のための有望なアプローチとして、弱みの監視が登場している。
本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。
論文 参考訳(メタデータ) (2023-10-17T13:23:18Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data [66.21317300595483]
機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。
私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
論文 参考訳(メタデータ) (2023-02-23T16:26:11Z) - DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。
注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文 参考訳(メタデータ) (2023-02-11T11:32:10Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow
Articles [8.53502615629675]
クエリ中心のマルチドキュメント要約(qMDS)タスクのための,新たな大規模データセットであるHowSummを提案する。
このユースケースは、既存のマルチドキュメント要約(MDS)データセットでカバーされているユースケースと異なり、教育や産業のシナリオに適用できる。
データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。
論文 参考訳(メタデータ) (2021-10-07T04:44:32Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。