Fugu-MT 論文翻訳(概要): DocLLM: A layout-aware generative language model for multimodal document understanding

論文の概要: DocLLM: A layout-aware generative language model for multimodal document understanding

arxiv url: http://arxiv.org/abs/2401.00908v1
Date: Sun, 31 Dec 2023 22:37:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 15:23:01.599429
Title: DocLLM: A layout-aware generative language model for multimodal document understanding
Title（参考訳）: DocLLM:マルチモーダル文書理解のためのレイアウト対応生成言語モデル
Authors: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
Abstract要約: 本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
参考スコア（独自算出の注目度）: 12.093889265216205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Enterprise documents such as forms, invoices, receipts, reports, contracts, and other similar records, often carry rich semantics at the intersection of textual and spatial modalities. The visual cues offered by their complex layouts play a crucial role in comprehending these documents effectively. In this paper, we present DocLLM, a lightweight extension to traditional large language models (LLMs) for reasoning over visual documents, taking into account both textual semantics and spatial layout. Our model differs from existing multimodal LLMs by avoiding expensive image encoders and focuses exclusively on bounding box information to incorporate the spatial layout structure. Specifically, the cross-alignment between text and spatial modalities is captured by decomposing the attention mechanism in classical transformers to a set of disentangled matrices. Furthermore, we devise a pre-training objective that learns to infill text segments. This approach allows us to address irregular layouts and heterogeneous content frequently encountered in visual documents. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. We demonstrate that our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.
Abstract（参考訳）: 形式、請求書、領収書、報告書、契約書などのエンタープライズ文書は、しばしばテキストと空間のモダリティの交点においてリッチな意味論を持つ。複雑なレイアウトによって提供される視覚的手がかりは、これらの文書を効果的に解釈する上で重要な役割を果たす。本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMを提案する。本モデルは,既存のマルチモーダルllmと異なり,高価な画像エンコーダを回避し,空間レイアウト構造を組み込むバウンディングボックス情報のみに焦点をあてる。具体的には、古典トランスフォーマーの注意機構を不連続行列の集合に分解して、テキストと空間的モダリティの相互関係を捉える。さらに,テキストセグメントをインフィルすることを学ぶ事前学習目標を考案する。このアプローチにより、視覚文書で頻繁に発生する不規則なレイアウトや異種コンテンツに対処できる。事前訓練されたモデルは、4つのコアドキュメントインテリジェンスタスクをカバーする大規模な命令データセットを使用して微調整される。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットをうまく一般化しています。

関連論文リスト

Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文参考訳（メタデータ） (2025-06-19T07:16:18Z)
Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文参考訳（メタデータ） (2025-05-08T17:37:36Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文参考訳（メタデータ） (2024-04-19T09:00:05Z)
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。 4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-04-14T09:48:37Z)
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-03-19T16:48:40Z)
LAPDoc: Layout-Aware Prompting for Documents [3.523208537466128]
そこで本研究では,テキストベースのLLMを文書固有のタスクに使用する可能性について,レイアウトエンリッチメントを用いて検討する。その結果,レイアウトの充実により,文書理解のためのテキストベースのLLMの性能が最大15%向上することが示唆された。
論文参考訳（メタデータ） (2024-02-15T10:00:49Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文参考訳（メタデータ） (2023-03-01T18:26:14Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-06-07T04:19:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。