論文の概要: DocParser: End-to-end OCR-free Information Extraction from Visually Rich
Documents
- arxiv url: http://arxiv.org/abs/2304.12484v1
- Date: Mon, 24 Apr 2023 22:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:26:35.004043
- Title: DocParser: End-to-end OCR-free Information Extraction from Visually Rich
Documents
- Title(参考訳): DocParser: Visually Rich DocumentsからエンドツーエンドのOCRフリー情報抽出
- Authors: Mohamed Dhouib, Ghassen Bettaieb and Aymen Shabou
- Abstract要約: OCRフリーエンド・ツー・エンド情報抽出モデルDocrimi
最近のOCRフリーエンド・ツー・エンド情報抽出モデルDocrimi
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information Extraction from visually rich documents is a challenging task
that has gained a lot of attention in recent years due to its importance in
several document-control based applications and its widespread commercial
value. The majority of the research work conducted on this topic to date follow
a two-step pipeline. First, they read the text using an off-the-shelf Optical
Character Recognition (OCR) engine, then, they extract the fields of interest
from the obtained text. The main drawback of these approaches is their
dependence on an external OCR system, which can negatively impact both
performance and computational speed. Recent OCR-free methods were proposed to
address the previous issues. Inspired by their promising results, we propose in
this paper an OCR-free end-to-end information extraction model named DocParser.
It differs from prior end-to-end approaches by its ability to better extract
discriminative character features. DocParser achieves state-of-the-art results
on various datasets, while still being faster than previous works.
- Abstract(参考訳): 視覚的にリッチな文書からの情報抽出は、いくつかの文書制御ベースのアプリケーションの重要性と、その広範な商業的価値から、近年多くの注目を集めている課題である。
このトピックでこれまで行われた研究の大部分は、2段階のパイプラインに従っている。
まず、オフザシェルフ光学文字認識(OCR)エンジンを用いてテキストを読み、得られたテキストから関心領域を抽出する。
これらの手法の主な欠点は外部のOCRシステムに依存しており、性能と計算速度の両方に悪影響を及ぼす可能性がある。
従来の問題に対処するため,近年のOCRフリー手法が提案されている。
本稿では, DocParser と呼ばれる OCR フリーなエンドツーエンド情報抽出モデルを提案する。
識別的特徴をよりよく抽出できるという点で、従来のエンドツーエンドアプローチと異なる。
DocParserは、さまざまなデータセットで最先端の結果を達成すると同時に、以前の作業よりも高速である。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。
我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文 参考訳(メタデータ) (2023-04-21T14:43:42Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - OCR-IDL: OCR Annotations for Industry Document Library Dataset [8.905920197601171]
商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
論文 参考訳(メタデータ) (2022-02-25T21:30:48Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks [5.210482046387142]
文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
論文 参考訳(メタデータ) (2020-04-16T05:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。