論文の概要: DocMamba: Efficient Document Pre-training with State Space Model
- arxiv url: http://arxiv.org/abs/2409.11887v1
- Date: Wed, 18 Sep 2024 11:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 18:09:15.027982
- Title: DocMamba: Efficient Document Pre-training with State Space Model
- Title(参考訳): DocMamba: ステートスペースモデルによる効果的なドキュメント事前トレーニング
- Authors: Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Shuhang Liu, Jun Du, Jianshu Zhang,
- Abstract要約: 本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
- 参考スコア(独自算出の注目度): 56.84200017560988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, visually-rich document understanding has attracted increasing attention. Transformer-based pre-trained models have become the mainstream approach, yielding significant performance gains in this field. However, the self-attention mechanism's quadratic computational complexity hinders their efficiency and ability to process long documents. In this paper, we present DocMamba, a novel framework based on the state space model. It is designed to reduce computational complexity to linear while preserving global modeling capabilities. To further enhance its effectiveness in document processing, we introduce the Segment-First Bidirectional Scan (SFBS) to capture contiguous semantic information. Experimental results demonstrate that DocMamba achieves new state-of-the-art results on downstream datasets such as FUNSD, CORD, and SORIE, while significantly improving speed and reducing memory usage. Notably, experiments on the HRDoc confirm DocMamba's potential for length extrapolation. The code will be available online.
- Abstract(参考訳): 近年,視覚的に豊かな文書理解が注目されている。
トランスフォーマーベースの事前訓練モデルが主流のアプローチとなり、この分野で大きなパフォーマンス向上をもたらした。
しかし、自己認識機構の2次計算の複雑さは、その効率性と長いドキュメントの処理能力を妨げている。
本稿では,状態空間モデルに基づく新しいフレームワークであるDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
文書処理におけるその効率をさらに高めるため、連続した意味情報を取得するために、Segment-First Bidirectional Scan (SFBS)を導入する。
実験の結果,DocMambaはFUNSD, CORD, SORIEなどの下流データセット上で, 高速化とメモリ使用量の削減を実現している。
特にHRDocの実験では、DocMambaの長さ外挿の可能性が確認されている。
コードはオンラインで入手できる。
関連論文リスト
- VaeDiff-DocRE: End-to-end Data Augmentation Framework for Document-level Relation Extraction [9.516897428263146]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のエンティティペア間の関係を特定することを目的としている。
既存のほとんどの手法は、一様ラベルの分布を仮定し、現実の非バランスなデータセット上での最適以下の性能をもたらす。
組込み空間からのデータを強化するために生成モデルを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T04:55:29Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.301481927603554]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。
堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。
モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T14:50:47Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z) - Efficient Attentions for Long Document Summarization [25.234852272297598]
Heposは、頭の位置方向のストライドを持つ、新しい効率的なエンコーダデコーダアテンションである。
十分な注意を払っている既存のモデルよりも10倍のトークンを処理できます。
論文 参考訳(メタデータ) (2021-04-05T18:45:13Z) - ERNIE-DOC: The Retrospective Long-Document Modeling Transformer [24.426571160930635]
Recurrence Transformersに基づく文書レベルの言語プリトレーニングモデルであるERNIE-DOCを提案する。
ふりかえりフィード機構とリカレンスメカニズムの強化という2つのよく設計されたテクニックにより、ELNIE-DOCははるかに長いコンテキスト長を実現できます。
英語と中国語の文書レベルのタスクについて様々な実験を行った。
論文 参考訳(メタデータ) (2020-12-31T16:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。