論文の概要: MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2603.13349v1
- Date: Sat, 07 Mar 2026 15:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.107983
- Title: MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval
- Title(参考訳): MURE:視覚文書検索のための視覚言語モデルによる階層的多解符号化
- Authors: Fengbin Zhu, Zijing Cai, Yuzhe Wang, Pengyang Shao, Wenjie Wang, Fuli Feng, Richang Hong, Tat-Seng Chua,
- Abstract要約: Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
- 参考スコア(独自算出の注目度): 111.99106496142474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Document Retrieval (VDR) requires representations that capture both fine-grained visual details and global document structure to ensure retrieval efficacy while maintaining computational efficiency. Existing VDR models struggle to balance effectiveness and efficiency when processing high-resolution documents: they often either lose fine-grained information or generate an excessive number of visual tokens, resulting in significant indexing overhead and high retrieval latency. In this work, we rethink the visual encoding mechanism and propose a new X-VisEmb paradigm that progresses from multi-resolution sampling and encoding, through cross-granularity feature fusion, to adaptive representation distillation. A preliminary study validates its feasibility and effectiveness in capturing complementary visual cues at varying scales. Building on the insights, we develop MURE, a novel framework that employs VLMs as a hierarchical multi-resolution encoder, integrates resolution-level Matryoshka representation learning (RMRL) for effective feature fusion, and applies a semantic-aware hierarchical clustering mechanism for visual token compression. Experiments on two widely used VDR benchmarks show that our MURE framework consistently beats strong baselines. Furthermore, it significantly outperforms ColPali with only 50% of its visual token budget.
- Abstract(参考訳): Visual Document Retrieval (VDR) は、計算効率を維持しながら検索効率を確保するために、細粒度の視覚的詳細と大域的な文書構造の両方をキャプチャーする表現を必要とする。
既存のVDRモデルは、高解像度のドキュメントを処理する際の効率と効率のバランスをとるのに苦労している。
本研究では,視覚的符号化機構を再考し,多分解能サンプリングおよび符号化から粒度横断的特徴融合を経て適応的表現蒸留へと進展する新しいX-VisEmbパラダイムを提案する。
予備研究は、様々なスケールで相補的な視覚的手がかりを捉えることの実現可能性と有効性を検証する。
この知見に基づいて,VLMを階層型マルチレゾリューションエンコーダとして利用する新しいフレームワークであるMUREを開発し,効率的な特徴融合のための解像度レベルのMatryoshka表現学習(RMRL)を統合し,視覚的トークン圧縮にセマンティック・アウェアな階層的クラスタリング機構を適用した。
広く使われている2つのVDRベンチマークの実験は、MUREフレームワークが強いベースラインを一貫して上回っていることを示している。
さらに、ColPaliの視覚トークン予算の50%をはるかに上回っている。
関連論文リスト
- CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.88471147281406]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。
コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。
本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (2026-01-29T04:47:27Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。