論文の概要: PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks
- arxiv url: http://arxiv.org/abs/2004.07464v3
- Date: Sat, 18 Jul 2020 08:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:36:38.055281
- Title: PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks
- Title(参考訳): 改良されたグラフ学習-畳み込みネットワークを用いた文書からのキー情報抽出
- Authors: Wenwen Yu, Ning Lu, Xianbiao Qi, Ping Gong, Rong Xiao
- Abstract要約: 文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
- 参考スコア(独自算出の注目度): 5.210482046387142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision with state-of-the-art deep learning models has achieved huge
success in the field of Optical Character Recognition (OCR) including text
detection and recognition tasks recently. However, Key Information Extraction
(KIE) from documents as the downstream task of OCR, having a large number of
use scenarios in real-world, remains a challenge because documents not only
have textual features extracting from OCR systems but also have semantic visual
features that are not fully exploited and play a critical role in KIE. Too
little work has been devoted to efficiently make full use of both textual and
visual features of the documents. In this paper, we introduce PICK, a framework
that is effective and robust in handling complex documents layout for KIE by
combining graph learning with graph convolution operation, yielding a richer
semantic representation containing the textual and visual features and global
layout without ambiguity. Extensive experiments on real-world datasets have
been conducted to show that our method outperforms baselines methods by
significant margins. Our code is available at
https://github.com/wenwenyu/PICK-pytorch.
- Abstract(参考訳): 最先端のディープラーニングモデルを用いたコンピュータビジョンは,近年,テキスト検出や認識タスクを含む光学文字認識(OCR)分野において大きな成功を収めている。
しかし、OCRのダウンストリームタスクとしての文書からのキー情報抽出(KIE)は、OCRシステムから抽出されたテキストの特徴を持つだけでなく、完全に活用されていない意味的な視覚的特徴を持ち、KIEにおいて重要な役割を担っているため、依然として課題である。
文書のテキスト的特徴と視覚的特徴の両面を効果的に活用する作業はほとんど行われていない。
本稿では,グラフ学習とグラフ畳み込み操作を組み合わせることで,KIEの複雑な文書レイアウトを効果的かつ堅牢に扱えるフレームワークPICKを紹介する。
実世界のデータセットに対する大規模な実験により,本手法がベースライン法を著しく上回ることを示す。
私たちのコードはhttps://github.com/wenwenyu/pick-pytorchで利用可能です。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding [18.609441902943445]
VisFocusは、視覚エンコーダのキャパシティを言語プロンプトと直接結合することにより、OCRフリーな手法である。
視覚的エンコーダに入力された文書テキストのスニペットに言語マスキングを用いて,アーキテクチャ拡張と新たな事前学習タスクを組み合わせた。
我々の実験は、このプロンプト誘導型視覚符号化アプローチが性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-07-17T14:16:46Z) - Attention Where It Matters: Rethinking Visual Document Understanding
with Selective Region Concentration [26.408343160223517]
本稿では,SeRumという文書理解モデルを提案する。
SeRumは、画像理解と認識タスクを視覚トークンの局所的な復号プロセスに変換する。
本稿では,SeRumが文書理解タスクの最先端性能とテキストスポッティングタスクの競合結果を達成することを示す。
論文 参考訳(メタデータ) (2023-09-03T10:14:34Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。