Fugu-MT 論文翻訳(概要): Position Masking for Improved Layout-Aware Document Understanding

論文の概要: Position Masking for Improved Layout-Aware Document Understanding

arxiv url: http://arxiv.org/abs/2109.00442v1
Date: Wed, 1 Sep 2021 15:40:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-02 14:30:37.191534
Title: Position Masking for Improved Layout-Aware Document Understanding
Title（参考訳）: レイアウト対応文書理解のための位置マスキング
Authors: Anik Saha, Catherine Finegan-Dollak, Ashish Verma
Abstract要約: 本稿では,2次元位置埋め込みを組み込んだレイアウト対応単語埋め込みの性能を向上させるための事前学習タスクを提案する。我々は,事前学習されたモデルと,事前学習された言語マスキングと位置マスキングとを比較し,フォーム理解タスクにおいて,位置マスキングが5%以上向上することが確認された。
参考スコア（独自算出の注目度）: 7.38482187232142
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Natural language processing for document scans and PDFs has the potential to enormously improve the efficiency of business processes. Layout-aware word embeddings such as LayoutLM have shown promise for classification of and information extraction from such documents. This paper proposes a new pre-training task called that can improve performance of layout-aware word embeddings that incorporate 2-D position embeddings. We compare models pre-trained with only language masking against models pre-trained with both language masking and position masking, and we find that position masking improves performance by over 5% on a form understanding task.
Abstract（参考訳）: 文書スキャンとPDFのための自然言語処理は、ビジネスプロセスの効率を大幅に改善する可能性がある。 LayoutLMのような単語の埋め込みは、そのような文書から分類と情報抽出を約束している。本稿では,2次元位置埋め込みを組み込んだレイアウト対応単語埋め込みの性能を向上させるための事前学習タスクを提案する。我々は,事前学習されたモデルと,事前学習された言語マスキングと位置マスキングとを比較し,フォーム理解タスクにおいて,位置マスキングが5%以上向上することが確認された。

関連論文リスト

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding [42.15416804253783]
MLLM(Multi-modal Large Language Models)は、視覚的理解能力を備えた大規模言語モデルを提供する。文書レベルのMLLMにおける視覚的・言語的モダリティをブリッジするに適した画像テキスト事前学習タスクを設計するには,まだ未検討である。本稿では,マスク生成による視覚質問応答(VQAMask)タスクとして重要な課題を提示する新しい視覚言語アライメント手法を提案する。
論文参考訳（メタデータ） (2025-03-18T11:07:14Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Breaking Down Word Semantics from Pre-trained Language Models through Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。 2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文参考訳（メタデータ） (2023-10-08T11:07:19Z)
LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding [7.7514466231699455]
本稿では,新しいマルチモーダル事前学習モデルLayoutMaskを提案する。統一されたモデルにおいて、テキストとレイアウトのモダリティ間の相互作用を強化することができる。様々なVrDU問題に対して最先端の結果が得られる。
論文参考訳（メタデータ） (2023-05-30T03:56:07Z)
StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-01T07:32:51Z)
Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文参考訳（メタデータ） (2022-11-08T18:14:04Z)
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (2022-10-12T12:59:24Z)
Knowing Where and What: Unified Word Block Pretraining for Document Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文参考訳（メタデータ） (2022-07-28T09:43:06Z)
Transformer-Based Approach for Joint Handwriting and Named Entity Recognition in Historical documents [1.7491858164568674]
本研究は,手書き文書における名前付きエンティティ認識にトランスフォーマネットワークを採用した最初のアプローチを示す。我々は,Esposalles データベースを用いた ICDAR 2017 Information extract コンペティションにおいて,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2021-12-08T09:26:21Z)
Masking as an Efficient Alternative to Finetuning for Pretrained Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文参考訳（メタデータ） (2020-04-26T15:03:47Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。