Fugu-MT 論文翻訳(概要): Key Information Extraction in Purchase Documents using Deep Learning and Rule-based Corrections

論文の概要: Key Information Extraction in Purchase Documents using Deep Learning and Rule-based Corrections

arxiv url: http://arxiv.org/abs/2210.03453v1
Date: Fri, 7 Oct 2022 10:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 14:18:53.409014
Title: Key Information Extraction in Purchase Documents using Deep Learning and Rule-based Corrections
Title（参考訳）: ディープラーニングとルールベース補正を用いた購入文書のキー情報抽出
Authors: Roberto Arroyo, Javier Yebes, Elena Mart\'inez, H\'ector Corrales, Javier Lorenzo
Abstract要約: 我々は、Deep Learning (DL) とルールベースの修正の両方を用いて、購入文書にキー情報抽出(KIE)を構築する。本システムでは,まず,興味のある購入事実を識別するために,エンティティタグに基づくOCRとテキスト理解を信頼する。基準となるDL結果に対するこれらの規則に基づく補正によって得られる改善を実証する。
参考スコア（独自算出の注目度）: 0.4724825031148411
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Deep Learning (DL) is dominating the fields of Natural Language Processing (NLP) and Computer Vision (CV) in the recent times. However, DL commonly relies on the availability of large data annotations, so other alternative or complementary pattern-based techniques can help to improve results. In this paper, we build upon Key Information Extraction (KIE) in purchase documents using both DL and rule-based corrections. Our system initially trusts on Optical Character Recognition (OCR) and text understanding based on entity tagging to identify purchase facts of interest (e.g., product codes, descriptions, quantities, or prices). These facts are then linked to a same product group, which is recognized by means of line detection and some grouping heuristics. Once these DL approaches are processed, we contribute several mechanisms consisting of rule-based corrections for improving the baseline DL predictions. We prove the enhancements provided by these rule-based corrections over the baseline DL results in the presented experiments for purchase documents from public and NielsenIQ datasets.
Abstract（参考訳）: 近年,ディープラーニング (DL) が自然言語処理 (NLP) とコンピュータビジョン (CV) の分野を支配している。しかし、DLは一般的に大きなデータアノテーションの可用性に依存しているので、他の代替または補完的なパターンベースの技術は結果を改善するのに役立ちます。本稿では,購入文書におけるキー情報抽出(kie)をdlと規則に基づく補正の両方を用いて構築する。当社のシステムでは,まず,オプティカルキャラクタ認識(ocr)や,エンティティタグに基づくテキスト理解を信頼して,購入事実(製品コード,説明,量,価格など)を識別する。これらの事実は、同じ製品群にリンクされ、ライン検出といくつかのグループ化ヒューリスティックによって認識される。これらのDLアプローチが処理されると、ベースラインDL予測を改善するためのルールベースの修正からなるいくつかのメカニズムを貢献する。我々は、公開およびnielseniqデータセットからの購入文書に対する実験において、ベースラインdl結果に対するこれらのルールに基づく補正によって提供される拡張を実証する。

関連論文リスト

ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles [6.3071668118252076]
ClaimPTは、事実主張に注釈を付けたヨーロッパのポルトガルのニュース記事のデータセットである。 2つの訓練されたアノテーションは各記事にラベルを付け、キュレーターは新しく提案されたスキームに従ってすべてのアノテーションを検証する。クレーム検出のためのベースラインモデルを提供し、初期ベンチマークを確立し、将来のNLPおよびIRアプリケーションを可能にする。
論文参考訳（メタデータ） (2026-01-27T11:22:00Z)
KG-CRAFT: Knowledge Graph-based Contrastive Reasoning with LLMs for Enhancing Automated Fact-checking [3.7841869476488044]
KG-CRAFTは,大規模言語モデル(LLM)を活用することにより,自動クレーム検証を改善する方法であるまず、クレームと関連するレポートから知識グラフを構築し、その後、知識グラフ構造に基づいて文脈的に関連するコントラスト的な質問を定式化する。 2つの実世界のデータセットに対する広範囲な評価は,本手法が予測性能の新たな最先端を実現することを示す。
論文参考訳（メタデータ） (2026-01-27T10:32:42Z)
Digitization of Document and Information Extraction using OCR [0.0]
本論文は,光学文字認識(OCR)技術とLarge Language Models(LLM)を融合したテキスト抽出フレームワークを提案する。スキャンされたファイルはOCRエンジンで処理され、デジタルファイルはレイアウト対応のライブラリを通して解釈される。そして、抽出した原文をLLMで解析して、キー値対を特定し、あいまいさを解消する。
論文参考訳（メタデータ） (2025-06-11T16:03:01Z)
Multi-Facet Blending for Faceted Query-by-Example Retrieval [5.156059061769101]
本稿では,多面体ブレンディング(FaBle)拡張法を提案する。モジュール化によって、事前に定義されたファセットの知識やラベルが不要になります。 1K文書上のFaBle拡張は、ファセット条件埋め込みの訓練を著しく支援する。
論文参考訳（メタデータ） (2024-12-02T12:32:19Z)
SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文参考訳（メタデータ） (2024-10-22T02:06:38Z)
Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。 ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文参考訳（メタデータ） (2024-06-27T12:05:55Z)
Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery [6.037276428689637]
本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(Disdiscovery Graph)を紹介する。本手法は,手作業と比較して文書レビューコストを99.9%削減し,LCMに基づく分類法と比較して95%削減する。
論文参考訳（メタデータ） (2024-05-29T15:08:55Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
Backdoor Adjustment of Confounding by Provenance for Robust Text Classification of Multi-institutional Clinical Notes [7.82404526462678]
薬物乱用に言及した臨床ノートのデータセットにおいて,テキスト分類のためのバックドア調整の有用性について検討した。以上の結果から, バックドアの調整は, コンバウンディングシフトを効果的に軽減できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-03T21:40:44Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
A Survey of Learning-based Automated Program Repair [12.09968472868107]
自動プログラム修復(APR)は、ソフトウェアバグを自動修正することを目的としており、ソフトウェア開発とメンテナンスにおいて重要な役割を果たす。近年のディープラーニング(DL)の進歩により、ニューラルネットワークを活用して大規模なオープンソースコードリポジトリからバグフィックスパターンを学ぶためのAPR技術が増えている。本稿では,学習型APRコミュニティにおける最先端研究を要約するために,体系的な調査を行う。
論文参考訳（メタデータ） (2023-01-09T11:08:15Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文参考訳（メタデータ） (2020-08-30T04:28:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。