論文の概要: Long-Range Transformer Architectures for Document Understanding
- arxiv url: http://arxiv.org/abs/2309.05503v1
- Date: Mon, 11 Sep 2023 14:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:19:15.319478
- Title: Long-Range Transformer Architectures for Document Understanding
- Title(参考訳): 文書理解のための長距離変圧器アーキテクチャ
- Authors: Thibault Douzon, Stefan Duffner, Christophe Garcia and J\'er\'emy
Espinas
- Abstract要約: Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
- 参考スコア(独自算出の注目度): 1.9331361036118608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since their release, Transformers have revolutionized many fields from
Natural Language Understanding to Computer Vision. Document Understanding (DU)
was not left behind with first Transformer based models for DU dating from late
2019. However, the computational complexity of the self-attention operation
limits their capabilities to small sequences. In this paper we explore multiple
strategies to apply Transformer based models to long multi-page documents. We
introduce 2 new multi-modal (text + layout) long-range models for DU. They are
based on efficient implementations of Transformers for long sequences.
Long-range models can process whole documents at once effectively and are less
impaired by the document's length. We compare them to LayoutLM, a classical
Transformer adapted for DU and pre-trained on millions of documents. We further
propose 2D relative attention bias to guide self-attention towards relevant
tokens without harming model efficiency. We observe improvements on multi-page
business documents on Information Retrieval for a small performance cost on
smaller sequences. Relative 2D attention revealed to be effective on dense text
for both normal and long-range models.
- Abstract(参考訳): リリース以来、トランスフォーマーは自然言語理解からコンピュータビジョンまで多くの分野に革命をもたらした。
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではない。
しかし、自己注意演算の計算複雑性は、その能力を小さな列に制限する。
本稿では,複数ページの長い文書にトランスフォーマティブモデルを適用するための複数の戦略について検討する。
DUのための2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを導入する。
これらは長い列に対するトランスフォーマーの効率的な実装に基づいている。
長距離モデルは文書全体を効果的に処理でき、文書の長さによって損なわれない。
DUに適応し、数百万のドキュメントで事前トレーニングされた古典的なトランスフォーマーであるLayoutLMと比較する。
さらに,モデル効率を損なうことなく,関連するトークンに対して自己注意を導くための2次元相対注意バイアスを提案する。
情報検索における多ページ業務文書の改善を観察し、より小さなシーケンスで少ない性能コストで処理する。
相対的な2次元注意は, 正常および長距離モデルの両方において高密度テキストに有効であることが判明した。
関連論文リスト
- Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - An Exploration of Hierarchical Attention Transformers for Efficient Long
Document Classification [37.069127262896764]
ロングフォーマーやビッグバードのようなトランスフォーマーベースのモデルは、長いドキュメントを扱うための一般的なアプローチである。
セグメントワイドおよびクロスセグメントエンコーダを用いた完全事前学習型HATモデルの開発とリリースを行う。
最高のHATモデルは、GPUメモリを10~20%削減し、文書処理を40~45%高速化しながら、同等の大きさのLongformerモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T15:17:56Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Hi-Transformer: Hierarchical Interactive Transformer for Efficient and
Effective Long Document Modeling [51.79399904527525]
高速かつ効率的な長文モデリングのための階層型対話型変換器(Hi-Transformer)を提案する。
Hi-Transformerは文書を階層的にモデル化し、まず文表現を学び、次に文書表現を学ぶ。
3つのベンチマークデータセットの実験は、長期文書モデリングにおけるHi-Transformerの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-06-02T09:30:29Z) - Long-Span Dependencies in Transformer-based Summarization Systems [38.672160430296536]
トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
これらのトランスベースのモデルの1つの問題は、入力長が増加するにつれてメモリと計算要件の点でうまくスケールしないことである。
本研究では,事前学習された大規模トランスフォーマーモデルを用いて,抽象的要約における長大な依存関係に対処する。
論文 参考訳(メタデータ) (2021-05-08T23:53:03Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。