論文の概要: BROS: A Layout-Aware Pre-trained Language Model for Understanding
Documents
- arxiv url: http://arxiv.org/abs/2108.04539v1
- Date: Tue, 10 Aug 2021 09:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:26:32.020818
- Title: BROS: A Layout-Aware Pre-trained Language Model for Understanding
Documents
- Title(参考訳): BROS:ドキュメント理解のためのレイアウト対応事前学習言語モデル
- Authors: Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, and
Sungrae Park
- Abstract要約: 本稿では、個々のテキストブロックに含まれる情報とそのレイアウトを効果的に活用する事前学習型言語モデルBERT Relying On Spaceity(BROS)を提案する。
BROSは相対的な位置を利用して空間情報を符号化し、新しい領域マスキング戦略でOCRブロック間の依存関係を学習する。
- 参考スコア(独自算出の注目度): 13.293166441041238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding documents from their visual snapshots is an emerging problem
that requires both advanced computer vision and NLP methods. The recent advance
in OCR enables the accurate recognition of text blocks, yet it is still
challenging to extract key information from documents due to the diversity of
their layouts. Although recent studies on pre-trained language models show the
importance of incorporating layout information on this task, the conjugation of
texts and their layouts still follows the style of BERT optimized for
understanding the 1D text. This implies there is room for further improvement
considering the 2D nature of text layouts. This paper introduces a pre-trained
language model, BERT Relying On Spatiality (BROS), which effectively utilizes
the information included in individual text blocks and their layouts.
Specifically, BROS encodes spatial information by utilizing relative positions
and learns spatial dependencies between OCR blocks with a novel area-masking
strategy. These two novel approaches lead to an efficient encoding of spatial
layout information highlighted by the robust performance of BROS under
low-resource environments. We also introduce a general-purpose parser that can
be combined with BROS to extract key information even when there is no order
information between text blocks. BROS shows its superiority on four public
benchmarks---FUNSD, SROIE*, CORD, and SciTSR---and its robustness in practical
cases where order information of text blocks is not available. Further
experiments with a varying number of training examples demonstrate the high
training efficiency of our approach. Our code will be open to the public.
- Abstract(参考訳): 文書を視覚的スナップショットから理解することは、高度なコンピュータビジョンとNLPメソッドの両方を必要とする新たな問題である。
ocrの最近の進歩により、テキストブロックの正確な認識が可能となったが、レイアウトの多様性から文書からキー情報を抽出することは依然として困難である。
近年の事前学習言語モデルの研究では、このタスクにレイアウト情報を組み込むことの重要性が示されているが、テキストの共役とそのレイアウトは、1Dテキストを理解するために最適化されたBERTのスタイルに従っている。
これは、テキストレイアウトの2d特質を考慮する余地があることを意味する。
本稿では、個々のテキストブロックに含まれる情報とそのレイアウトを効果的に活用する事前学習型言語モデルBERT Relying On Spaceity(BROS)を提案する。
具体的には、相対位置を利用して空間情報を符号化し、新しい領域マスキング戦略を用いてOCRブロック間の空間依存を学習する。
これらの2つの新しいアプローチは、低リソース環境下でのBROSのロバストな性能によって強調された空間レイアウト情報の効率的な符号化につながる。
また,テキストブロック間に順序情報がない場合でも,BROSと組み合わせて鍵情報を抽出できる汎用パーサを導入する。
BROSは、FUNSD、SROIE*、CORD、SciTSRの4つの公開ベンチマークにおいて、その優位性を示し、テキストブロックの順序情報が入手できない実例では、その堅牢性を示している。
様々なトレーニング例によるさらなる実験は、我々のアプローチの高いトレーニング効率を示す。
私たちのコードは一般公開されます。
関連論文リスト
- SCOB: Universal Text Understanding via Character-wise Supervised
Contrastive Learning with Online Text Rendering for Bridging Domain Gap [10.011953474950744]
そこで本稿では,オンラインテキストレンダリングによる文字の教師付きコントラスト学習を活用したSCOBという新しい事前学習手法を提案する。
SCOBは弱い教師付き学習を可能にし、アノテーションのコストを大幅に削減する。
以上の結果から,SCOBは読み取り型事前学習法に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-21T15:06:08Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。