論文の概要: ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for
Key Information Extraction from Documents
- arxiv url: http://arxiv.org/abs/2105.11672v1
- Date: Tue, 25 May 2021 05:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:34:21.193931
- Title: ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for
Key Information Extraction from Documents
- Title(参考訳): ViBERTgrid: ドキュメントからキー情報抽出のための共同学習型マルチモーダル2次元文書表現
- Authors: Weihong Lin, Qifang Gao, Lei Sun, Zhuoyao Zhong, Kai Hu, Qin Ren,
Qiang Huo
- Abstract要約: BERTgridをCNNモデルの中間層に結合することで,新たなマルチモーダルバックボーンネットワークを提案する。
BERTgridと異なり、マルチモーダルバックボーンネットワークにおけるBERTとCNNのパラメータは共同で訓練される。
我々のViBERTgridベースのキー情報抽出アプローチは、実世界のデータセット上で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 15.05815746429359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent grid-based document representations like BERTgrid allow the
simultaneous encoding of the textual and layout information of a document in a
2D feature map so that state-of-the-art image segmentation and/or object
detection models can be straightforwardly leveraged to extract key information
from documents. However, such methods have not achieved comparable performance
to state-of-the-art sequence- and graph-based methods such as LayoutLM and PICK
yet. In this paper, we propose a new multi-modal backbone network by
concatenating a BERTgrid to an intermediate layer of a CNN model, where the
input of CNN is a document image and the BERTgrid is a grid of word embeddings,
to generate a more powerful grid-based document representation, named
ViBERTgrid. Unlike BERTgrid, the parameters of BERT and CNN in our multimodal
backbone network are trained jointly. Our experimental results demonstrate that
this joint training strategy improves significantly the representation ability
of ViBERTgrid. Consequently, our ViBERTgrid-based key information extraction
approach has achieved state-of-the-art performance on real-world datasets.
- Abstract(参考訳): BERTgridのような最近のグリッドベースの文書表現では、文書のテキスト情報とレイアウト情報を2次元特徴マップに同時符号化することで、最先端の画像セグメント化やオブジェクト検出モデルを簡単に活用して文書からキー情報を抽出することができる。
しかし、そのような方法は最先端のシーケンスやlayoutlmやpickのようなグラフベースのメソッドと同等の性能を達成していない。
本稿では,BERTgrid を CNN モデルの中間層に結合し,CNN の入力を文書画像とし,BERTgrid を単語埋め込みのグリッドとし,より強力なグリッドベースの文書表現である ViBERTgrid を生成する,新しいマルチモーダルバックボーンネットワークを提案する。
BERTgridと異なり、マルチモーダルバックボーンネットワークにおけるBERTとCNNのパラメータは共同で訓練される。
実験結果から,この共同学習戦略はViBERTgridの表現能力を大幅に向上させることが示された。
その結果、我々のViBERTgridベースのキー情報抽出アプローチは、実世界のデータセット上で最先端のパフォーマンスを達成した。
関連論文リスト
- VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Ske2Grid: Skeleton-to-Grid Representation Learning for Action
Recognition [15.497054173951584]
Ske2Gridは骨格に基づく行動認識を改善するための新しい表現学習フレームワークである。
グラフ畳み込みネットワーク上にネットワークを構築し、6つの主流骨格に基づく行動認識データセットで実験を行う。
論文 参考訳(メタデータ) (2023-08-15T04:49:11Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - RectiNet-v2: A stacked network architecture for document image dewarping [16.249023269158734]
本稿では,入力として使用する歪文書から歪みのない文書画像を生成することができるエンドツーエンドCNNアーキテクチャを提案する。
我々は、このモデルを、十分な自然データ不足を補うために、合成的にシミュレートされた歪んだ文書画像に基づいて訓練する。
我々は,この領域のベンチマークであるDocUNetデータセットを用いて本手法の評価を行い,最先端の手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2021-02-01T19:26:17Z) - VisualWordGrid: Information Extraction From Scanned Documents Using A
Multimodal Approach [0.0]
本研究では,フィールド抽出を行うための新しい文書表現手法を提案する。
テキスト、視覚、レイアウト情報を3軸テンソルで同時符号化することができる。
我々のアプローチは、パブリックおよびプライベートなドキュメントイメージデータセットでテストされており、最近の最先端手法と比較して高いパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-10-05T21:58:19Z) - Beyond Fixed Grid: Learning Geometric Image Representation with a
Deformable Grid [70.83353059694531]
本稿では,学習可能なニューラルネットワークモジュールであるemphDeformable Grid DefGridを紹介する。
DefGridは、2次元三角格子の頂点の位置オフセットを予測する。
セマンティックセグメンテーションのための一様グリッド上でCNNを使用する場合と比較して,同じグリッド解像度で有意に改善された結果を示す。
論文 参考訳(メタデータ) (2020-08-21T02:22:06Z) - What BERT Sees: Cross-Modal Transfer for Visual Question Generation [21.640299110619384]
補足データを用いた事前学習を回避して,BERTのアウト・オブ・ザ・ボックスの視覚能力について検討した。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入する。
論文 参考訳(メタデータ) (2020-02-25T12:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。