論文の概要: Skim-Attention: Learning to Focus via Document Layout
- arxiv url: http://arxiv.org/abs/2109.01078v1
- Date: Thu, 2 Sep 2021 16:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 13:55:30.386934
- Title: Skim-Attention: Learning to Focus via Document Layout
- Title(参考訳): Skim-Attention: ドキュメントレイアウトによる集中学習
- Authors: Laura Nguyen, Thomas Scialom, Jacopo Staiano, Benjamin Piwowarski
- Abstract要約: Skim-Attentionはドキュメントの構造とレイアウトを活用する新しいアテンションメカニズムである。
実験の結果,Skim-Attentionは従来の作業よりも難易度が低く,計算効率も高いことがわかった。
- 参考スコア(独自算出の注目度): 20.298202184851387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-training techniques of text and layout have proven
effective in a number of document understanding tasks. Despite this success,
multimodal pre-training models suffer from very high computational and memory
costs. Motivated by human reading strategies, this paper presents
Skim-Attention, a new attention mechanism that takes advantage of the structure
of the document and its layout. Skim-Attention only attends to the
2-dimensional position of the words in a document. Our experiments show that
Skim-Attention obtains a lower perplexity than prior works, while being more
computationally efficient. Skim-Attention can be further combined with
long-range Transformers to efficiently process long documents. We also show how
Skim-Attention can be used off-the-shelf as a mask for any Pre-trained Language
Model, allowing to improve their performance while restricting attention.
Finally, we show the emergence of a document structure representation in
Skim-Attention.
- Abstract(参考訳): トランスフォーマーによるテキストとレイアウトの事前学習技術は多くの文書理解タスクで有効であることが証明されている。
この成功にもかかわらず、マルチモーダル事前学習モデルは計算とメモリのコストが非常に高い。
本稿では,人間の読書戦略に動機づけられ,文書の構造とレイアウトを生かした新たな注意機構であるskim-attentionを提案する。
Skim-Attention は文書内の単語の2次元位置にのみ参加する。
実験の結果,Skim-Attentionは従来の作業よりも難易度が低く,計算効率も高いことがわかった。
スキムアテンションはさらに長距離トランスフォーマーと組み合わせて、長い文書を効率的に処理することができる。
また,事前学習型言語モデルのマスクとしてSkim-Attentionをオフザシェルフで使用し,注意を抑えながら性能を向上させる方法を示す。
最後に,スキムアテンションにおける文書構造表現の出現を示す。
関連論文リスト
- Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Contrastive Document Representation Learning with Graph Attention
Networks [18.22722084624321]
本稿では,既訓練トランスフォーマーモデル上にグラフアテンションネットワークを用いて文書の埋め込みを学習することを提案する。
さらに、グラフ文書モデルに基づいて、大量のラベルなしコーパスでモデルを事前学習するための単純なコントラスト学習戦略を設計する。
論文 参考訳(メタデータ) (2021-10-20T21:05:02Z) - Position Masking for Improved Layout-Aware Document Understanding [7.38482187232142]
本稿では,2次元位置埋め込みを組み込んだレイアウト対応単語埋め込みの性能を向上させるための事前学習タスクを提案する。
我々は,事前学習されたモデルと,事前学習された言語マスキングと位置マスキングとを比較し,フォーム理解タスクにおいて,位置マスキングが5%以上向上することが確認された。
論文 参考訳(メタデータ) (2021-09-01T15:40:15Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。