論文の概要: Understanding Long Documents with Different Position-Aware Attentions
- arxiv url: http://arxiv.org/abs/2208.08201v1
- Date: Wed, 17 Aug 2022 10:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:15:41.104598
- Title: Understanding Long Documents with Different Position-Aware Attentions
- Title(参考訳): 位置認識の異なる長文文書の理解
- Authors: Hai Pham, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang
- Abstract要約: 本稿では、1Dと新しい2D位置認識の注意を本質的に短縮した文脈で扱うための異なるアプローチについて検討する。
提案手法は,様々な評価指標に基づいて提案手法の利点を生かしている。
我々のモデルは、注意のみに変化をもたらし、任意のトランスフォーマーベースのアーキテクチャに容易に適応できる。
- 参考スコア(独自算出の注目度): 18.656621611419716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite several successes in document understanding, the practical task for
long document understanding is largely under-explored due to several challenges
in computation and how to efficiently absorb long multimodal input. Most
current transformer-based approaches only deal with short documents and employ
solely textual information for attention due to its prohibitive computation and
memory limit. To address those issues in long document understanding, we
explore different approaches in handling 1D and new 2D position-aware attention
with essentially shortened context. Experimental results show that our proposed
models have advantages for this task based on various evaluation metrics.
Furthermore, our model makes changes only to the attention and thus can be
easily adapted to any transformer-based architecture.
- Abstract(参考訳): 文書理解におけるいくつかの成功にもかかわらず、長い文書理解のための実践的なタスクは、計算のいくつかの課題と、長いマルチモーダル入力を効率的に吸収する方法のために、ほとんど未熟である。
現在のトランスフォーマーベースのアプローチのほとんどは、短い文書にのみ対応し、禁忌な計算とメモリ制限のため、単なるテキスト情報のみを注意に用いている。
これらの問題に長い文書理解で対処するために、1dと新しい2d位置認識の注意を本質的に短縮したコンテキストで扱うための異なるアプローチを検討します。
実験の結果,提案手法は様々な評価指標に基づき,この課題に有益であることがわかった。
さらに,本モデルでは注目度のみの変更を行い,任意のトランスフォーマーアーキテクチャに容易に適用可能である。
関連論文リスト
- Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding [41.43688559565315]
我々は、事前訓練されたマルチモーダル大言語モデル(MLLM)に基づく新しいOCRフリー文書理解フレームワークを提案する。
本手法では,文書画像内のフォントサイズを多種多様な視覚的特徴量で処理する。
そこで本研究では,入力テキストの相対的な位置を学習することで,モデルのテキスト読解能力を向上させる新しい命令チューニングタスクを提案する。
論文 参考訳(メタデータ) (2024-11-08T00:58:12Z) - ChuLo: Chunk-Level Key Information Representation for Long Document Processing [11.29459225491404]
ChuLoは長い文書分類のための新しいチャンク表現法である。
提案手法は,情報損失を最小限に抑え,トランスフォーマーモデルの有効性を向上させる。
論文 参考訳(メタデータ) (2024-10-14T22:06:54Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。