論文の概要: StructuralLM: Structural Pre-training for Form Understanding
- arxiv url: http://arxiv.org/abs/2105.11210v1
- Date: Mon, 24 May 2021 11:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:21:04.918596
- Title: StructuralLM: Structural Pre-training for Form Understanding
- Title(参考訳): structurelm: フォーム理解のための構造事前学習
- Authors: Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang
and Luo Si
- Abstract要約: 本研究では,スキャンした文書のセル情報とレイアウト情報を協調的に活用する新しい事前学習手法であるStructureLMを提案する。
具体的には、セル情報とレイアウト情報の相互作用を最大限に活用するために、2つの新しい設計でStructureLMを事前訓練する。
事前訓練されたStructureLMは、フォーム理解(78.95から85.14)、文書視覚質問応答(72.59から83.94)、文書画像分類(94.43から96.08)など、さまざまなダウンストリームタスクにおいて、新しい最先端結果を達成する。
- 参考スコア(独自算出の注目度): 46.17974624595118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models achieve state-of-the-art results when
fine-tuned on downstream NLP tasks. However, they almost exclusively focus on
text-only representation, while neglecting cell-level layout information that
is important for form image understanding. In this paper, we propose a new
pre-training approach, StructuralLM, to jointly leverage cell and layout
information from scanned documents. Specifically, we pre-train StructuralLM
with two new designs to make the most of the interactions of cell and layout
information: 1) each cell as a semantic unit; 2) classification of cell
positions. The pre-trained StructuralLM achieves new state-of-the-art results
in different types of downstream tasks, including form understanding (from
78.95 to 85.14), document visual question answering (from 72.59 to 83.94) and
document image classification (from 94.43 to 96.08).
- Abstract(参考訳): 大きな事前学習された言語モデルは、下流のnlpタスクで微調整された場合、最先端の結果を得る。
しかし、主にテキストのみの表現にフォーカスする一方で、画像理解において重要なセルレベルのレイアウト情報を無視している。
本稿では,スキャンされた文書からセル情報とレイアウト情報を共同で活用する新しい事前学習手法であるstructurelmを提案する。
具体的には、セルとレイアウト情報の相互作用を最大限に活用するための2つの新しい設計を事前訓練する: 1)各セルを意味単位とし、2)細胞の位置を分類する。
事前訓練されたstructurelmは、フォーム理解(78.95から85.14)、文書視覚的質問応答(72.59から83.94)、文書画像分類(94.43から96.08)など、下流タスクのさまざまなタイプの新しい結果を達成する。
関連論文リスト
- CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Visual Understanding of Complex Table Structures from Document Images [32.95187519339354]
本稿では,テーブル内におけるセル固有のアライメントをキャプチャするオブジェクト検出に基づく新しいディープモデルを提案する。
また,新しい直線グラフに基づく定式化を導出することにより,構造認識の改善も目指している。
我々のフレームワークは、ベンチマークデータセットの平均F1スコアを2.7%改善する。
論文 参考訳(メタデータ) (2021-11-13T14:54:33Z) - Form2Seq : A Framework for Higher-Order Form Structure Extraction [14.134131448981295]
テキストを用いた構造抽出のための新しいシーケンス・ツー・シーケンス(Seq2Seq)を提案する。
1)フィールドキャプション,リスト項目などの下位要素を10種類に分類すること,2)テキストフィールド,チョイスフィールド,チョイスグループなどの下位要素を情報収集機構として使用する高次構成要素に分類すること,の2つの課題について論じる。
実験結果から, 分類作業の精度90%, F1が75.82, 86.01, 61.63のテキストベースアプローチの有効性が示された。
論文 参考訳(メタデータ) (2021-07-09T13:10:51Z) - Incorporating Visual Layout Structures for Scientific Text
Classification [31.15058113053433]
本研究では,VILA(Visual LAyout Structure)の新たな手法として,ページテキストをテキスト行やテキストブロックにグループ化する手法を言語モデルに導入する。
モデル入力にレイアウト構造の境界を示す特別なトークンを追加するI-VILAアプローチは、トークン分類タスクにおいて+14.5 F1のスコア改善をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2021-06-01T17:59:00Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。