論文の概要: Structured Attention Matters to Multimodal LLMs in Document Understanding
- arxiv url: http://arxiv.org/abs/2506.21600v1
- Date: Thu, 19 Jun 2025 07:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.318849
- Title: Structured Attention Matters to Multimodal LLMs in Document Understanding
- Title(参考訳): 文書理解におけるマルチモーダルLLMの構造的注意事項
- Authors: Chang Liu, Hongkai Chen, Yujun Cai, Hang Wu, Qingwen Ye, Ming-Hsuan Yang, Yiwei Wang,
- Abstract要約: 入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
- 参考スコア(独自算出の注目度): 52.37530640460363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding remains a significant challenge for multimodal large language models (MLLMs). While previous research has primarily focused on locating evidence pages through precise multimodal queries, our work investigates a fundamental yet overlooked aspect: how input format influences document comprehension performance. Through systematic analysis, we discover that raw OCR text often impairs rather than improves MLLMs' performance, which is a counterintuitive finding we attribute to attention dispersion and structure loss. To further substantiate our hypothesis, we propose a novel structure-preserving approach that encodes document elements using the LaTex paradigm, maintaining the hierarchical organization and spatial relationships critical for comprehension. Our attention analysis reveals that structured text induces structured attention patterns on both textual and visual content, directing models to focus on semantically meaningful regions while reducing attention waste. This approach significantly enhances MLLMs' document question answering performance across diverse document types without requiring architectural modifications or additional training.
- Abstract(参考訳): 文書理解は、マルチモーダル大言語モデル(MLLM)にとって重要な課題である。
従来の研究は主に、正確なマルチモーダルクエリによるエビデンスページの検索に重点を置いていたが、我々の研究は、インプット形式が文書理解のパフォーマンスにどのように影響するかという、基本的な見過ごされがちな側面を調査している。
体系的な分析により、生のOCRテキストはMLLMの性能を改善するよりも、しばしば障害に陥ることがわかり、これは注意分散と構造損失に起因する反直感的な発見である。
この仮説をさらに裏付けるために、我々はLaTexパラダイムを用いて文書要素を符号化し、階層的構造と理解に不可欠な空間的関係を維持する新しい構造保存手法を提案する。
構造化されたテキストは、テキストコンテンツと視覚コンテンツの両方に構造化された注意パターンを誘導し、注意の無駄を減らしながら意味的に意味のある領域に集中するようモデルに指示する。
このアプローチにより、MLLMの文書質問応答性能は、アーキテクチャの変更や追加のトレーニングを必要とせず、大幅に向上する。
関連論文リスト
- DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - DoPTA: Improving Document Layout Analysis using Patch-Text Alignment [3.3181276611945267]
本稿では,文書画像のテキスト情報を利用した視覚的タスクの性能向上を目的とした,新しい画像テキストアライメント手法を提案する。
本手法で訓練した文書エンコーダモデルDoPTAは,OCRを必要とせず,幅広い文書イメージ理解タスクにおいて高い性能を示す。
DoPTAはまた、D4LAと2つの挑戦的なドキュメントビジュアル分析ベンチマークであるFUNSDで、新しい最先端のアート結果も設定している。
論文 参考訳(メタデータ) (2024-12-17T13:26:31Z) - Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding [41.43688559565315]
我々は、事前訓練されたマルチモーダル大言語モデル(MLLM)に基づく新しいOCRフリー文書理解フレームワークを提案する。
本手法では,文書画像内のフォントサイズを多種多様な視覚的特徴量で処理する。
そこで本研究では,入力テキストの相対的な位置を学習することで,モデルのテキスト読解能力を向上させる新しい命令チューニングタスクを提案する。
論文 参考訳(メタデータ) (2024-11-08T00:58:12Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。