Fugu-MT 論文翻訳(概要): CrossLingR: A Comprehensive Multilingual Receipt Dataset for Cross-Language Information Extraction and Classification

論文の概要: CrossLingR: A Comprehensive Multilingual Receipt Dataset for Cross-Language Information Extraction and Classification

arxiv url: http://arxiv.org/abs/2309.09800v2
Date: Sun, 11 Feb 2024 16:26:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 22:16:50.328871
Title: CrossLingR: A Comprehensive Multilingual Receipt Dataset for Cross-Language Information Extraction and Classification
Title（参考訳）: CrossLingR:クロスランゲージ情報抽出と分類のための総合多言語受信データセット
Authors: Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt
Abstract要約: 本研究は,レシート情報抽出と項目分類の分野における進歩を促進するために設計された,拡張的で斬新な多言語データセットを提案する。本データセットは,47,720個の注釈付きサンプルを包含し,商品名,価格やブランドなどの関連属性を詳述し,44種類の製品カテゴリに分類した。鍵情報抽出と項目分類のタスクにおいて,F1スコア0.76,精度0.68で証明された,重要な有効性を示す先駆的手法であるInstructLLaMA法を公表する。
参考スコア（独自算出の注目度）: 15.434785564716796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The process of key information extraction is critical for converting scanned receipts into structured, accessible documents, facilitating the efficient retrieval of vital data. This research introduces an expansive, novel multilingual dataset designed to propel advancements in the domain of receipt information extraction and item classification. Our dataset encompasses 47,720 annotated samples, detailed with item names, associated attributes such as price and brand, and organized into 44 distinct product categories. We unveil the InstructLLaMA methodology, a pioneering approach that demonstrates significant effectiveness, evidenced by an F1 score of 0.76 and an accuracy of 0.68 in tasks of key information extraction and item classification. To support further research and application development, we make available our comprehensive dataset, the InstructLLaMA model, and relevant resources at https://github.com/Update-For-Integrated-Business-AI/AMuRD.
Abstract（参考訳）: キー情報抽出のプロセスは、スキャンされたレシートを構造化されたアクセス可能なドキュメントに変換するために重要であり、バイタルデータの効率的な検索を容易にする。本研究は,レシート情報抽出と項目分類の分野における進歩を促進するために設計された,拡張的で斬新な多言語データセットを提案する。本データセットは,47,720個の注釈付きサンプルを包含し,商品名,価格やブランドなどの関連属性を詳述し,44種類の製品カテゴリに分類した。鍵情報抽出と項目分類のタスクにおいて,F1スコア0.76,精度0.68で証明された,重要な有効性を示す先駆的手法であるInstructLLaMA法を公表する。さらなる研究とアプリケーション開発を支援するため、私たちはhttps://github.com/Update-For-Integrated-Business-AI/AMuRDで包括的なデータセット、InstructLLaMAモデル、関連するリソースを利用可能にしています。

関連論文リスト

OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。 UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文参考訳（メタデータ） (2025-11-13T03:27:32Z)
Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks [0.7874708385247352]
本稿ではアスペクトベース感情分析(ABSA)のための新しいデータセットを提案する。レストランドメインからの注釈付きレビューが手作業で3.1Kである。教師なし学習に適したアノテーションを使わずに2400万のレビューを提供する。
論文参考訳（メタデータ） (2025-08-11T16:03:28Z)
Spatial ModernBERT: Spatial-Aware Transformer for Table and Key-Value Extraction in Financial Documents at Scale [0.5062312533373298]
空間埋め込みを付加したトランスモデルであるSpatial ModernBERTを導入する。監査、データ分析、自動請求処理といった業務には、財務文書からテーブルとキー-バリューペアを抽出することが不可欠である。
論文参考訳（メタデータ） (2025-07-09T14:40:40Z)
CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset [12.828786692835369]
本稿では,CORU(Comprehensive Post-OCR Parsing and Receipt Understanding dataset)を紹介する。 CORUはスーパーマーケットや衣料品店など、さまざまな小売店からの2万以上の注釈付きレシートで構成されている。従来の手法の有効性を評価するため,CORU上でのモデル範囲のベースライン性能を確立した。
論文参考訳（メタデータ） (2024-06-06T20:38:15Z)
Deep Learning Based Named Entity Recognition Models for Recipes [7.507956305171027]
名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。私たちは26,445のフレーズを累積してデータセットを作成しました。金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
論文参考訳（メタデータ） (2024-02-27T12:03:56Z)
Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-01-18T14:17:40Z)
ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。 BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文参考訳（メタデータ） (2023-10-19T07:39:00Z)
Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文参考訳（メタデータ） (2023-09-17T20:28:17Z)
Knowledge-Enhanced Multi-Label Few-Shot Product Attribute-Value Extraction [4.511923587827302]
既存の属性値抽出モデルは、トレーニングのために大量のラベル付きデータを必要とする。新しい属性値ペアを持つ新製品は、現実世界のeコマースで毎日市場に出回っている。そこで我々は,ネットワークをベースとした知識強化学習フレームワーク(KEAF)を提案し,より差別的なプロトタイプを学習する。
論文参考訳（メタデータ） (2023-08-16T14:58:12Z)
Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文参考訳（メタデータ） (2023-06-23T09:30:01Z)
DocILE Benchmark for Document Information Localization and Extraction [7.944448547470927]
本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。注釈付きビジネス文書6.7k、合成文書100k、教師なし事前訓練のためのラベルなし文書100万近い。
論文参考訳（メタデータ） (2023-02-11T11:32:10Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
Automatic Validation of Textual Attribute Values in E-commerce Catalog by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文参考訳（メタデータ） (2020-06-15T21:31:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。