論文の概要: DAVE: A VLM Vision Encoder for Document Understanding and Web Agents
- arxiv url: http://arxiv.org/abs/2512.17221v2
- Date: Thu, 25 Dec 2025 02:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.772356
- Title: DAVE: A VLM Vision Encoder for Document Understanding and Web Agents
- Title(参考訳): DAVE: ドキュメント理解とWebエージェントのためのVLMビジョンエンコーダ
- Authors: Brandon Huang, Hang Hua, Zhuoran Yu, Trevor Darrell, Rogerio Feris, Roei Herzig,
- Abstract要約: 視覚言語モデル(VLM)のための視覚エンコーダDAVEを紹介する。
私たちのトレーニングパイプラインは、ドキュメントやWebイメージの大規模なアノテーションの必要性を回避するために、豊富なラベルのないデータを活用するように設計されています。
我々は、アンサンブルトレーニングを使用して、事前訓練されたジェネリストエンコーダの機能を、独自のドキュメントとWeb固有の表現で融合する。
- 参考スコア(独自算出の注目度): 50.05119785399764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-language models (VLMs) have demonstrated remarkable performance across multi-modal tasks, their choice of vision encoders presents a fundamental weakness: their low-level features lack the robust structural and spatial information essential for document understanding and web agents. To bridge this gap, we introduce DAVE, a vision encoder purpose-built for VLMs and tailored for these tasks. Our training pipeline is designed to leverage abundant unlabeled data to bypass the need for costly large-scale annotations for document and web images. We begin with a self-supervised pretraining stage on unlabeled images, followed by a supervised autoregressive pretraining stage, where the model learns tasks like parsing and localization from limited, high-quality data. Within the supervised stage, we adopt two strategies to improve our encoder's alignment with both general visual knowledge and diverse document and web agentic tasks: (i) We introduce a novel model-merging scheme, combining encoders trained with different text decoders to ensure broad compatibility with different web agentic architectures. (ii) We use ensemble training to fuse features from pretrained generalist encoders (e.g., SigLIP2) with our own document and web-specific representations. Extensive experiments on classic document tasks, VQAs, web localization, and agent-based benchmarks validate the effectiveness of our approach, establishing DAVE as a strong vision encoder for document and web applications.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な性能を示したが、視覚エンコーダの選択には根本的な弱点がある。
このギャップを埋めるために,VLM用に構築された視覚エンコーダDAVEを導入する。
私たちのトレーニングパイプラインは、ドキュメントやWebイメージの大規模なアノテーションの必要性を回避するために、豊富なラベルのないデータを活用するように設計されています。
ラベルなし画像の自己教師付き事前学習段階から始まり、その後に教師付き自己回帰事前学習段階を経て、モデルが限定された高品質データから解析や局所化などのタスクを学習する。
教師付き段階では、エンコーダの一般的な視覚知識と多種多様な文書およびWebエージェントタスクとの整合性を改善するための2つの戦略を採用する。
(i)異なるテキストデコーダで訓練されたエンコーダを組み合わせて、異なるWebエージェントアーキテクチャとの広範な互換性を確保する新しいモデルマージ方式を提案する。
(II) アンサンブルトレーニングを用いて、事前訓練された汎用エンコーダ(例えば、SigLIP2)の機能を、独自のドキュメントとWeb固有の表現で融合させる。
従来の文書タスク,VQA,Webローカライゼーション,エージェントベースのベンチマークに関する大規模な実験により,我々のアプローチの有効性が検証され,文書およびWebアプリケーションの強力なビジョンエンコーダとしてDAVEが確立された。
関連論文リスト
- Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。
我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。
統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:58Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。