論文の概要: DocVLM: Make Your VLM an Efficient Reader
- arxiv url: http://arxiv.org/abs/2412.08746v1
- Date: Wed, 11 Dec 2024 19:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:55.966312
- Title: DocVLM: Make Your VLM an Efficient Reader
- Title(参考訳): DocVLM: VLMを効率的なリーダーにする
- Authors: Mor Shpigel Nacson, Aviad Aberdam, Roy Ganz, Elad Ben Avraham, Alona Golts, Yair Kittenplon, Shai Mazor, Ron Litman,
- Abstract要約: 我々は、OCRに基づくモダリティを視覚言語モデル(VLM)に統合するDocVLMを紹介する。
提案手法では,OCRエンコーダを用いてテキストの内容とレイアウトをキャプチャし,それらをVLMに組み込まれた学習クエリのコンパクトなセットに圧縮する。
制限付き(448$times$448)では、64の学習クエリを持つDocVLMが、InternVL2に統合された場合のDocVQAの結果を56.4%から86.6%に改善し、Qwen2-VLでは84.4%から91.2%に改善した。
- 参考スコア(独自算出の注目度): 16.11678886224833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) excel in diverse visual tasks but face challenges in document understanding, which requires fine-grained text processing. While typical visual tasks perform well with low-resolution inputs, reading-intensive applications demand high-resolution, resulting in significant computational overhead. Using OCR-extracted text in VLM prompts partially addresses this issue but underperforms compared to full-resolution counterpart, as it lacks the complete visual context needed for optimal performance. We introduce DocVLM, a method that integrates an OCR-based modality into VLMs to enhance document processing while preserving original weights. Our approach employs an OCR encoder to capture textual content and layout, compressing these into a compact set of learned queries incorporated into the VLM. Comprehensive evaluations across leading VLMs show that DocVLM significantly reduces reliance on high-resolution images for document understanding. In limited-token regimes (448$\times$448), DocVLM with 64 learned queries improves DocVQA results from 56.0% to 86.6% when integrated with InternVL2 and from 84.4% to 91.2% with Qwen2-VL. In LLaVA-OneVision, DocVLM achieves improved results while using 80% less image tokens. The reduced token usage allows processing multiple pages effectively, showing impressive zero-shot results on DUDE and state-of-the-art performance on MP-DocVQA, highlighting DocVLM's potential for applications requiring high-performance and efficiency.
- Abstract(参考訳): VLM(Vision-Language Models)は様々な視覚的タスクに優れるが、微細なテキスト処理を必要とする文書理解の課題に直面している。
典型的な視覚タスクは低解像度の入力でうまく機能するが、読み込み集約的なアプリケーションは高解像度を必要とするため、計算オーバーヘッドは大幅に増加する。
VLMでOCR抽出テキストを使用すると、この問題に部分的に対処するが、最適なパフォーマンスに必要な完全な視覚的コンテキストが欠如しているため、フル解像度のテキストに比べて性能が劣る。
我々は,OCRに基づくモダリティをVLMに統合し,元の重みを保ちながら文書処理を向上するDocVLMを紹介する。
提案手法では,OCRエンコーダを用いてテキストの内容とレイアウトをキャプチャし,それらをVLMに組み込まれた学習クエリのコンパクトなセットに圧縮する。
先進VLMの総合評価はDocVLMが文書理解のための高解像度画像への依存を著しく低減することを示している。
制限付き(448$\times$448)では、64の学習クエリを持つDocVLMは、InternVL2に統合された場合のDocVQAの結果を56.0%から86.6%に改善し、Qwen2-VLでは84.4%から91.2%に改善した。
LLaVA-OneVisionでは、DocVLMは80%少ない画像トークンを使用して改善された結果を達成する。
トークン使用量の削減により、複数のページを効果的に処理することができ、DUDEでの印象的なゼロショット結果とMP-DocVQAでの最先端のパフォーマンスを示し、DocVLMがハイパフォーマンスと効率を必要とするアプリケーションに対して持つ可能性を強調している。
関連論文リスト
- LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。
ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。
本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文 参考訳(メタデータ) (2025-04-09T12:51:10Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いた検索拡張MLLMを提案する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
RAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding [30.754200683466788]
文書理解のための大規模言語モデル(LayTextLLM)にインターリービングレイアウトとテキストを導入する。
LayTextLLMは、各バウンディングボックスを単一の埋め込みに投影し、テキストでインターリーブする。
また、キー情報抽出(KIE)と視覚質問応答(VQA)の性能向上も示す。
論文 参考訳(メタデータ) (2024-07-02T06:29:05Z) - DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming [33.40963475653868]
DocKylinは文書中心のMLLMで、ピクセルレベルとトークンレベルの両方でビジュアルコンテンツをスリム化する。
本稿では,ピクセルレベルのスリム化を行うためのAPSプリプロセッシングモジュールを提案する。
また,トークンレベルスライミングを行う新しい動的トークンスライミング(DTS)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-27T11:28:36Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual
Questions [41.825273034537204]
視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。
本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。
我々のモデルは、テキストリッチなVQAベンチマークの処理や、一般的な(特にテキストリッチではない)VQAベンチマークの実行において、パフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-19T07:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。