論文の概要: Key Information Extraction in Purchase Documents using Deep Learning and
Rule-based Corrections
- arxiv url: http://arxiv.org/abs/2210.03453v1
- Date: Fri, 7 Oct 2022 10:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:18:53.409014
- Title: Key Information Extraction in Purchase Documents using Deep Learning and
Rule-based Corrections
- Title(参考訳): ディープラーニングとルールベース補正を用いた購入文書のキー情報抽出
- Authors: Roberto Arroyo, Javier Yebes, Elena Mart\'inez, H\'ector Corrales,
Javier Lorenzo
- Abstract要約: 我々は、Deep Learning (DL) とルールベースの修正の両方を用いて、購入文書にキー情報抽出(KIE)を構築する。
本システムでは,まず,興味のある購入事実を識別するために,エンティティタグに基づくOCRとテキスト理解を信頼する。
基準となるDL結果に対するこれらの規則に基づく補正によって得られる改善を実証する。
- 参考スコア(独自算出の注目度): 0.4724825031148411
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Learning (DL) is dominating the fields of Natural Language Processing
(NLP) and Computer Vision (CV) in the recent times. However, DL commonly relies
on the availability of large data annotations, so other alternative or
complementary pattern-based techniques can help to improve results. In this
paper, we build upon Key Information Extraction (KIE) in purchase documents
using both DL and rule-based corrections. Our system initially trusts on
Optical Character Recognition (OCR) and text understanding based on entity
tagging to identify purchase facts of interest (e.g., product codes,
descriptions, quantities, or prices). These facts are then linked to a same
product group, which is recognized by means of line detection and some grouping
heuristics. Once these DL approaches are processed, we contribute several
mechanisms consisting of rule-based corrections for improving the baseline DL
predictions. We prove the enhancements provided by these rule-based corrections
over the baseline DL results in the presented experiments for purchase
documents from public and NielsenIQ datasets.
- Abstract(参考訳): 近年,ディープラーニング (DL) が自然言語処理 (NLP) とコンピュータビジョン (CV) の分野を支配している。
しかし、DLは一般的に大きなデータアノテーションの可用性に依存しているので、他の代替または補完的なパターンベースの技術は結果を改善するのに役立ちます。
本稿では,購入文書におけるキー情報抽出(kie)をdlと規則に基づく補正の両方を用いて構築する。
当社のシステムでは,まず,オプティカルキャラクタ認識(ocr)や,エンティティタグに基づくテキスト理解を信頼して,購入事実(製品コード,説明,量,価格など)を識別する。
これらの事実は、同じ製品群にリンクされ、ライン検出といくつかのグループ化ヒューリスティックによって認識される。
これらのDLアプローチが処理されると、ベースラインDL予測を改善するためのルールベースの修正からなるいくつかのメカニズムを貢献する。
我々は、公開およびnielseniqデータセットからの購入文書に対する実験において、ベースラインdl結果に対するこれらのルールに基づく補正によって提供される拡張を実証する。
関連論文リスト
- SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。
本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。
結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:06:38Z) - Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。
ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。
プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-27T12:05:55Z) - Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery [6.037276428689637]
本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(Disdiscovery Graph)を紹介する。
本手法は,手作業と比較して文書レビューコストを99.9%削減し,LCMに基づく分類法と比較して95%削減する。
論文 参考訳(メタデータ) (2024-05-29T15:08:55Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Backdoor Adjustment of Confounding by Provenance for Robust Text
Classification of Multi-institutional Clinical Notes [7.82404526462678]
薬物乱用に言及した臨床ノートのデータセットにおいて,テキスト分類のためのバックドア調整の有用性について検討した。
以上の結果から, バックドアの調整は, コンバウンディングシフトを効果的に軽減できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-03T21:40:44Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - A Survey of Learning-based Automated Program Repair [12.09968472868107]
自動プログラム修復(APR)は、ソフトウェアバグを自動修正することを目的としており、ソフトウェア開発とメンテナンスにおいて重要な役割を果たす。
近年のディープラーニング(DL)の進歩により、ニューラルネットワークを活用して大規模なオープンソースコードリポジトリからバグフィックスパターンを学ぶためのAPR技術が増えている。
本稿では,学習型APRコミュニティにおける最先端研究を要約するために,体系的な調査を行う。
論文 参考訳(メタデータ) (2023-01-09T11:08:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。