論文の概要: TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding
- arxiv url: http://arxiv.org/abs/2005.13118v3
- Date: Mon, 25 Oct 2021 09:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:16:40.114011
- Title: TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding
- Title(参考訳): TRIE:文書理解のためのテキスト読解と情報抽出
- Authors: Peng Zhang, Yunlu Xu, Zhanzhan Cheng, Shiliang Pu, Jing Lu, Liang
Qiao, Yi Niu, and Fei Wu
- Abstract要約: 本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 56.1416883796342
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Since real-world ubiquitous documents (e.g., invoices, tickets, resumes and
leaflets) contain rich information, automatic document image understanding has
become a hot topic. Most existing works decouple the problem into two separate
tasks, (1) text reading for detecting and recognizing texts in images and (2)
information extraction for analyzing and extracting key elements from
previously extracted plain text. However, they mainly focus on improving
information extraction task, while neglecting the fact that text reading and
information extraction are mutually correlated. In this paper, we propose a
unified end-to-end text reading and information extraction network, where the
two tasks can reinforce each other. Specifically, the multimodal visual and
textual features of text reading are fused for information extraction and in
turn, the semantics in information extraction contribute to the optimization of
text reading. On three real-world datasets with diverse document images (from
fixed layout to variable layout, from structured text to semi-structured text),
our proposed method significantly outperforms the state-of-the-art methods in
both efficiency and accuracy.
- Abstract(参考訳): 実際のユビキタス文書(請求書、チケット、履歴書、リーフレットなど)には豊富な情報が含まれているため、自動文書画像理解がホットトピックとなっている。
既存の研究の多くは,(1)画像中のテキストを検出して認識するテキスト読取,(2)以前に抽出したプレーンテキストからキー要素を抽出する情報抽出という2つのタスクに分割している。
しかし,テキスト読解と情報抽出は相互に相関しているという事実を無視しながら,情報抽出タスクの改善に重点を置いている。
本稿では,この2つのタスクが相互に強化できる,エンドツーエンドのテキスト読み出しと情報抽出ネットワークを提案する。
具体的には,テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴を融合して情報抽出を行い,情報抽出のセマンティクスがテキスト読解の最適化に寄与する。
構造化テキストから半構造化テキストまで,多種多様な文書画像を持つ実世界の3つのデータセットにおいて,提案手法は,効率と精度の両方において,最先端の手法よりも優れていた。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - DUET: Detection Utilizing Enhancement for Text in Scanned or Captured
Documents [1.4866448722906016]
提案手法は,テキスト検出だけでなく,ノイズ低減やテキスト領域の強調を行うように設計されている。
テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させる。
提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。
論文 参考訳(メタデータ) (2021-06-10T07:08:31Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z) - Matching Text with Deep Mutual Information Estimation [0.0]
本稿では,深い相互情報推定を組み込んだ汎用テキストマッチングのためのニューラルネットワークを提案する。
提案手法は,Deep Info Max (TIM) を用いたテキストマッチングであり,表現の教師なし学習手法と統合されている。
自然言語推論,パラフレーズ識別,解答選択など,いくつかのタスクにおけるテキストマッチング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-09T15:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。