論文の概要: Understanding Long Documents with Different Position-Aware Attentions
- arxiv url: http://arxiv.org/abs/2208.08201v1
- Date: Wed, 17 Aug 2022 10:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:15:41.104598
- Title: Understanding Long Documents with Different Position-Aware Attentions
- Title(参考訳): 位置認識の異なる長文文書の理解
- Authors: Hai Pham, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang
- Abstract要約: 本稿では、1Dと新しい2D位置認識の注意を本質的に短縮した文脈で扱うための異なるアプローチについて検討する。
提案手法は,様々な評価指標に基づいて提案手法の利点を生かしている。
我々のモデルは、注意のみに変化をもたらし、任意のトランスフォーマーベースのアーキテクチャに容易に適応できる。
- 参考スコア(独自算出の注目度): 18.656621611419716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite several successes in document understanding, the practical task for
long document understanding is largely under-explored due to several challenges
in computation and how to efficiently absorb long multimodal input. Most
current transformer-based approaches only deal with short documents and employ
solely textual information for attention due to its prohibitive computation and
memory limit. To address those issues in long document understanding, we
explore different approaches in handling 1D and new 2D position-aware attention
with essentially shortened context. Experimental results show that our proposed
models have advantages for this task based on various evaluation metrics.
Furthermore, our model makes changes only to the attention and thus can be
easily adapted to any transformer-based architecture.
- Abstract(参考訳): 文書理解におけるいくつかの成功にもかかわらず、長い文書理解のための実践的なタスクは、計算のいくつかの課題と、長いマルチモーダル入力を効率的に吸収する方法のために、ほとんど未熟である。
現在のトランスフォーマーベースのアプローチのほとんどは、短い文書にのみ対応し、禁忌な計算とメモリ制限のため、単なるテキスト情報のみを注意に用いている。
これらの問題に長い文書理解で対処するために、1dと新しい2d位置認識の注意を本質的に短縮したコンテキストで扱うための異なるアプローチを検討します。
実験の結果,提案手法は様々な評価指標に基づき,この課題に有益であることがわかった。
さらに,本モデルでは注目度のみの変更を行い,任意のトランスフォーマーアーキテクチャに容易に適用可能である。
関連論文リスト
- M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-09T13:30:38Z) - Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding [41.43688559565315]
我々は、事前訓練されたマルチモーダル大言語モデル(MLLM)に基づく新しいOCRフリー文書理解フレームワークを提案する。
本手法では,文書画像内のフォントサイズを多種多様な視覚的特徴量で処理する。
そこで本研究では,入力テキストの相対的な位置を学習することで,モデルのテキスト読解能力を向上させる新しい命令チューニングタスクを提案する。
論文 参考訳(メタデータ) (2024-11-08T00:58:12Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。