論文の概要: Key Information Extraction in Purchase Documents using Deep Learning and
Rule-based Corrections
- arxiv url: http://arxiv.org/abs/2210.03453v1
- Date: Fri, 7 Oct 2022 10:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:18:53.409014
- Title: Key Information Extraction in Purchase Documents using Deep Learning and
Rule-based Corrections
- Title(参考訳): ディープラーニングとルールベース補正を用いた購入文書のキー情報抽出
- Authors: Roberto Arroyo, Javier Yebes, Elena Mart\'inez, H\'ector Corrales,
Javier Lorenzo
- Abstract要約: 我々は、Deep Learning (DL) とルールベースの修正の両方を用いて、購入文書にキー情報抽出(KIE)を構築する。
本システムでは,まず,興味のある購入事実を識別するために,エンティティタグに基づくOCRとテキスト理解を信頼する。
基準となるDL結果に対するこれらの規則に基づく補正によって得られる改善を実証する。
- 参考スコア(独自算出の注目度): 0.4724825031148411
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Learning (DL) is dominating the fields of Natural Language Processing
(NLP) and Computer Vision (CV) in the recent times. However, DL commonly relies
on the availability of large data annotations, so other alternative or
complementary pattern-based techniques can help to improve results. In this
paper, we build upon Key Information Extraction (KIE) in purchase documents
using both DL and rule-based corrections. Our system initially trusts on
Optical Character Recognition (OCR) and text understanding based on entity
tagging to identify purchase facts of interest (e.g., product codes,
descriptions, quantities, or prices). These facts are then linked to a same
product group, which is recognized by means of line detection and some grouping
heuristics. Once these DL approaches are processed, we contribute several
mechanisms consisting of rule-based corrections for improving the baseline DL
predictions. We prove the enhancements provided by these rule-based corrections
over the baseline DL results in the presented experiments for purchase
documents from public and NielsenIQ datasets.
- Abstract(参考訳): 近年,ディープラーニング (DL) が自然言語処理 (NLP) とコンピュータビジョン (CV) の分野を支配している。
しかし、DLは一般的に大きなデータアノテーションの可用性に依存しているので、他の代替または補完的なパターンベースの技術は結果を改善するのに役立ちます。
本稿では,購入文書におけるキー情報抽出(kie)をdlと規則に基づく補正の両方を用いて構築する。
当社のシステムでは,まず,オプティカルキャラクタ認識(ocr)や,エンティティタグに基づくテキスト理解を信頼して,購入事実(製品コード,説明,量,価格など)を識別する。
これらの事実は、同じ製品群にリンクされ、ライン検出といくつかのグループ化ヒューリスティックによって認識される。
これらのDLアプローチが処理されると、ベースラインDL予測を改善するためのルールベースの修正からなるいくつかのメカニズムを貢献する。
我々は、公開およびnielseniqデータセットからの購入文書に対する実験において、ベースラインdl結果に対するこれらのルールに基づく補正によって提供される拡張を実証する。
関連論文リスト
- Hypergraph Enhanced Knowledge Tree Prompt Learning for Next-Basket
Recommendation [50.55786122323965]
次バスケットレコメンデーション(NBR)は、対応するバスケットシーケンスが与えられた次のバスケット内のアイテムを推論することを目的としている。
HEKP4NBRは知識グラフ(KG)をKTP(Knowledge Tree Prompt)と呼ばれるプロンプトに変換し、PLMがOOV(Out-Of-Vocabulary)アイテムIDをエンコードするのを助ける。
ハイパーグラフ畳み込みモジュールは、複数の側面からMoEモデルによって測定されたアイテム類似性に基づいてハイパーグラフを構築するように設計されている。
論文 参考訳(メタデータ) (2023-12-26T02:12:21Z) - Backdoor Adjustment of Confounding by Provenance for Robust Text
Classification of Multi-institutional Clinical Notes [7.82404526462678]
薬物乱用に言及した臨床ノートのデータセットにおいて,テキスト分類のためのバックドア調整の有用性について検討した。
以上の結果から, バックドアの調整は, コンバウンディングシフトを効果的に軽減できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-03T21:40:44Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Towards Codable Watermarking for Injecting Multi-bit Information to LLM [90.13097900576113]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
LLMの悪用を防ぐために、テキストのソースを特定する必要性が高まっている。
テキスト透かし技術は、LLMによってテキストが生成されるかどうかを識別する上で信頼性があることが証明されている。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - A Survey of Learning-based Automated Program Repair [12.09968472868107]
自動プログラム修復(APR)は、ソフトウェアバグを自動修正することを目的としており、ソフトウェア開発とメンテナンスにおいて重要な役割を果たす。
近年のディープラーニング(DL)の進歩により、ニューラルネットワークを活用して大規模なオープンソースコードリポジトリからバグフィックスパターンを学ぶためのAPR技術が増えている。
本稿では,学習型APRコミュニティにおける最先端研究を要約するために,体系的な調査を行う。
論文 参考訳(メタデータ) (2023-01-09T11:08:15Z) - Improving Accuracy and Explainability of Online Handwriting Recognition [0.9176056742068814]
我々は,OnHW-charsデータセット上で手書き認識モデルを開発し,先行モデルの精度を向上させる。
私たちの結果は公開リポジトリを通じて検証可能で再現可能です。
論文 参考訳(メタデータ) (2022-09-14T21:28:14Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Entity Linking Meets Deep Learning: Techniques and Solutions [49.017379833990155]
本稿では,既存のディープラーニングに基づくEL手法の総合的なレビューと分析を行う。
組込み,特徴,アルゴリズムの3つの軸を用いて既存のDLベースのEL手法を整理する新しい分類法を提案する。
データセット上でのDLに基づくEL法の定量的性能解析を行う。
論文 参考訳(メタデータ) (2021-09-26T07:57:38Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z) - Distantly-Supervised Neural Relation Extraction with Side Information
using BERT [2.0946724304757955]
関係抽出(Relation extract、RE)は、文内のエンティティ間の関係を分類する。
この戦略を採用する方法の1つはRESIDEモデルであり、知識ベースからの側情報を用いた遠方の教師付きニューラルネットワーク抽出を提案する。
本稿では,この手法が最先端のベースラインより優れていることを考慮し,追加の側情報を用いたRESIDE関連手法を提案するが,BERT埋め込みによる文エンコーディングを簡略化する。
論文 参考訳(メタデータ) (2020-04-29T19:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。