論文の概要: DocVLM: Make Your VLM an Efficient Reader
- arxiv url: http://arxiv.org/abs/2412.08746v1
- Date: Wed, 11 Dec 2024 19:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:39.690573
- Title: DocVLM: Make Your VLM an Efficient Reader
- Title(参考訳): DocVLM: VLMを効率的なリーダーにする
- Authors: Mor Shpigel Nacson, Aviad Aberdam, Roy Ganz, Elad Ben Avraham, Alona Golts, Yair Kittenplon, Shai Mazor, Ron Litman,
- Abstract要約: 我々は、OCRに基づくモダリティを視覚言語モデル(VLM)に統合するDocVLMを紹介する。
提案手法では,OCRエンコーダを用いてテキストの内容とレイアウトをキャプチャし,それらをVLMに組み込まれた学習クエリのコンパクトなセットに圧縮する。
制限付き(448$times$448)では、64の学習クエリを持つDocVLMが、InternVL2に統合された場合のDocVQAの結果を56.4%から86.6%に改善し、Qwen2-VLでは84.4%から91.2%に改善した。
- 参考スコア(独自算出の注目度): 16.11678886224833
- License:
- Abstract: Vision-Language Models (VLMs) excel in diverse visual tasks but face challenges in document understanding, which requires fine-grained text processing. While typical visual tasks perform well with low-resolution inputs, reading-intensive applications demand high-resolution, resulting in significant computational overhead. Using OCR-extracted text in VLM prompts partially addresses this issue but underperforms compared to full-resolution counterpart, as it lacks the complete visual context needed for optimal performance. We introduce DocVLM, a method that integrates an OCR-based modality into VLMs to enhance document processing while preserving original weights. Our approach employs an OCR encoder to capture textual content and layout, compressing these into a compact set of learned queries incorporated into the VLM. Comprehensive evaluations across leading VLMs show that DocVLM significantly reduces reliance on high-resolution images for document understanding. In limited-token regimes (448$\times$448), DocVLM with 64 learned queries improves DocVQA results from 56.0% to 86.6% when integrated with InternVL2 and from 84.4% to 91.2% with Qwen2-VL. In LLaVA-OneVision, DocVLM achieves improved results while using 80% less image tokens. The reduced token usage allows processing multiple pages effectively, showing impressive zero-shot results on DUDE and state-of-the-art performance on MP-DocVQA, highlighting DocVLM's potential for applications requiring high-performance and efficiency.
- Abstract(参考訳): VLM(Vision-Language Models)は様々な視覚的タスクに優れるが、微細なテキスト処理を必要とする文書理解の課題に直面している。
典型的な視覚タスクは低解像度の入力でうまく機能するが、読み込み集約的なアプリケーションは高解像度を必要とするため、計算オーバーヘッドは大幅に増加する。
VLMでOCR抽出テキストを使用すると、この問題に部分的に対処するが、最適なパフォーマンスに必要な完全な視覚的コンテキストが欠如しているため、フル解像度のテキストに比べて性能が劣る。
我々は,OCRに基づくモダリティをVLMに統合し,元の重みを保ちながら文書処理を向上するDocVLMを紹介する。
提案手法では,OCRエンコーダを用いてテキストの内容とレイアウトをキャプチャし,それらをVLMに組み込まれた学習クエリのコンパクトなセットに圧縮する。
先進VLMの総合評価はDocVLMが文書理解のための高解像度画像への依存を著しく低減することを示している。
制限付き(448$\times$448)では、64の学習クエリを持つDocVLMは、InternVL2に統合された場合のDocVQAの結果を56.0%から86.6%に改善し、Qwen2-VLでは84.4%から91.2%に改善した。
LLaVA-OneVisionでは、DocVLMは80%少ない画像トークンを使用して改善された結果を達成する。
トークン使用量の削減により、複数のページを効果的に処理することができ、DUDEでの印象的なゼロショット結果とMP-DocVQAでの最先端のパフォーマンスを示し、DocVLMがハイパフォーマンスと効率を必要とするアプリケーションに対して持つ可能性を強調している。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いた検索拡張MLLMを提案する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
RAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual
Questions [41.825273034537204]
視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。
本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。
我々のモデルは、テキストリッチなVQAベンチマークの処理や、一般的な(特にテキストリッチではない)VQAベンチマークの実行において、パフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-19T07:53:43Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。