論文の概要: Information Extraction from Visually Rich Documents with Font Style
Embeddings
- arxiv url: http://arxiv.org/abs/2111.04045v1
- Date: Sun, 7 Nov 2021 10:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 07:52:03.569531
- Title: Information Extraction from Visually Rich Documents with Font Style
Embeddings
- Title(参考訳): フォント埋め込みを用いた視覚リッチ文書からの情報抽出
- Authors: Ismail Oussaid, William Vanhuffel, Pirashanth Ratnamogan, Mhamed
Hajaiej, Alexis Mathey, Thomas Gilles
- Abstract要約: 本稿では,トークンスタイルと視覚表現の両方が利用可能である場合に,コンピュータビジョンの利用に挑戦する。
実世界の3つの複雑なデータセットに対する実験では、生の視覚的な埋め込みではなくトークンスタイルの属性をベースとした埋め込みが有用であることが示されている。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extraction (IE) from documents is an intensive area of research
with a large set of industrial applications. Current state-of-the-art methods
focus on scanned documents with approaches combining computer vision, natural
language processing and layout representation. We propose to challenge the
usage of computer vision in the case where both token style and visual
representation are available (i.e native PDF documents). Our experiments on
three real-world complex datasets demonstrate that using token style attributes
based embedding instead of a raw visual embedding in LayoutLM model is
beneficial. Depending on the dataset, such an embedding yields an improvement
of 0.18% to 2.29% in the weighted F1-score with a decrease of 30.7% in the
final number of trainable parameters of the model, leading to an improvement in
both efficiency and effectiveness.
- Abstract(参考訳): 文書からの情報抽出(ie)は、大量の産業応用を含む集中的な研究分野である。
現在の最先端の手法は、コンピュータビジョン、自然言語処理、レイアウト表現を組み合わせたアプローチでスキャンされた文書に焦点を当てている。
トークンスタイルと視覚的表現(すなわちネイティブpdf文書)の両方が利用可能である場合、コンピュータビジョンの使用に挑戦することを提案する。
実世界の3つの複雑なデータセットに対する実験により、LayoutLMモデルに生の視覚的埋め込みではなくトークンスタイルの属性をベースとした埋め込みが有用であることが示された。
データセットによって、そのような埋め込みは重み付けされたF1スコアの0.18%から2.29%の改善となり、最終的なトレーニング可能なモデルのパラメータの30.7%が減少し、効率と有効性が向上する。
関連論文リスト
- Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Unveiling Document Structures with YOLOv5 Layout Detection [0.0]
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
論文 参考訳(メタデータ) (2023-09-29T07:45:10Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z) - PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks [5.210482046387142]
文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
論文 参考訳(メタデータ) (2020-04-16T05:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。