論文の概要: DocPruner: A Storage-Efficient Framework for Multi-Vector Visual Document Retrieval via Adaptive Patch-Level Embedding Pruning
- arxiv url: http://arxiv.org/abs/2509.23883v1
- Date: Sun, 28 Sep 2025 13:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.506624
- Title: DocPruner: A Storage-Efficient Framework for Multi-Vector Visual Document Retrieval via Adaptive Patch-Level Embedding Pruning
- Title(参考訳): DocPruner:Adaptive Patch-Level Embedding Pruningによるマルチベクタビジュアルドキュメント検索のためのストレージ効率の良いフレームワーク
- Authors: Yibo Yan, Guangwei Xu, Xin Zou, Shuliang Liu, James Kwok, Xuming Hu,
- Abstract要約: Visual Document Retrieval (VDR)は多くの現実世界のアプリケーションに不可欠である。
近年の手法は多ベクトルパラダイムにおけるLVLM(Large Vision-Language Models)を活用している。
1ページあたり数百のベクタを格納することは、大規模なデプロイメントをコストと実用的でないものにします。
DocPrunerは、VDRに適応パッチレベルの埋め込みプルーニングを適用し、ストレージオーバーヘッドを効果的に削減する最初のフレームワークである。
- 参考スコア(独自算出の注目度): 42.36155936529965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Document Retrieval (VDR), the task of retrieving visually-rich document pages using queries that combine visual and textual cues, is crucial for numerous real-world applications. Recent state-of-the-art methods leverage Large Vision-Language Models (LVLMs) in a multi-vector paradigm, representing each document as patch-level embeddings to capture fine-grained details. While highly effective, this approach introduces a critical challenge: prohibitive storage overhead, as storing hundreds of vectors per page makes large-scale deployment costly and impractical. To address this, we introduce DocPruner, the first framework to employ adaptive patch-level embedding pruning for VDR to effectively reduce the storage overhead. DocPruner leverages the intra-document patch attention distribution to dynamically identify and discard redundant embeddings for each document. This adaptive mechanism enables a significant 50-60% reduction in storage for leading multi-vector VDR models with negligible degradation in document retrieval performance. Extensive experiments across more than ten representative datasets validate that DocPruner offers a robust, flexible, and effective solution for building storage-efficient, large-scale VDR systems.
- Abstract(参考訳): ビジュアルドキュメント検索(Visual Document Retrieval, VDR)は、視覚的およびテキスト的キューを組み合わせたクエリを使用して、視覚的にリッチなドキュメントページを取得するタスクである。
近年の最先端手法では,マルチベクタパラダイムでLVLM(Large Vision-Language Models)を活用し,各ドキュメントをパッチレベルの埋め込みとして表現し,詳細な詳細を捉える。
ページ毎に数百のベクタを格納することで、大規模なデプロイメントをコストがかかり非現実的になるからだ。
これを解決するために、我々はDocPrunerを紹介した。DocPrunerは、VDRに適応パッチレベルの埋め込みプルーニングを適用して、ストレージオーバーヘッドを効果的に削減する最初のフレームワークである。
DocPrunerはドキュメント内のパッチの注意分布を利用して、各ドキュメントの冗長な埋め込みを動的に識別し、破棄する。
この適応機構により、文書検索性能の無視できる劣化を伴うマルチベクトルVDRモデルをリードする上で、50-60%の大幅なストレージ削減が可能となる。
10以上の代表的なデータセットにわたる大規模な実験により、DocPrunerは、ストレージ効率の良い大規模VDRシステムを構築するための堅牢でフレキシブルで効果的なソリューションを提供することを確認した。
関連論文リスト
- Enhancing Document VQA Models via Retrieval-Augmented Generation [1.6769365072542683]
ドキュメントVQAは数十ページに及ぶドキュメントに対処しなければならないが、主要なシステムは依然として非常に大きな視覚言語モデルに依存している。
Retrieval-Augmented Generation (RAG) は魅力的な代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-26T12:32:55Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding [0.0]
Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T05:11:43Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-20T01:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。