論文の概要: NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2603.12824v1
- Date: Fri, 13 Mar 2026 09:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.023902
- Title: NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval
- Title(参考訳): NanoVDR:視覚文書検索のための700万テキスト専用エンコーダに2Bビジョンランゲージレトリバーを蒸留
- Authors: Zhuchenyang Liu, Yao Zhang, Yu Xiao,
- Abstract要約: Vision-Language Model (VLM)ベースのレトリバーは、高度な視覚文書検索(VDR)によって印象的な品質を実現している。
文書は視覚的に複雑であり、強い視覚的理解を必要とするのに対し、クエリは単なる短い文字列である。
NanoVDRはこのクエリ-ドキュメント非対称性を利用して、2つのエンコーディングパスを分離する。
問合せテキストのコサインアライメントは、ランクベースやコントラストの代替よりも一貫して優れています。
言語間転送を主要なパフォーマンスボトルネックとして認識し、機械翻訳クエリによるトレーニングデータの拡大により、安価に解決する。
- 参考スコア(独自算出の注目度): 8.720698253117837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Model (VLM) based retrievers have advanced visual document retrieval (VDR) to impressive quality. They require the same multi-billion parameter encoder for both document indexing and query encoding, incurring high latency and GPU dependence even for plain-text queries. We observe that this design is unnecessarily symmetric: documents are visually complex and demand strong visual understanding, whereas queries are just short text strings. NanoVDR exploits this query--document asymmetry by decoupling the two encoding paths: a frozen 2B VLM teacher indexes documents offline, while a distilled text-only student as small as 69M parameters encodes queries at inference. The key design choice is the distillation objective. Through systematic comparison of six objectives across three backbones and 22 ViDoRe benchmark datasets, we find that pointwise cosine alignment on query text consistently outperforms ranking-based and contrastive alternatives, while requiring only pre-cached teacher query embeddings and no document processing during training. Furthermore, we identify cross-lingual transfer as the primary performance bottleneck, and resolve it cheaply by augmenting training data with machine-translated queries. The resulting NanoVDR-S-Multi (DistilBERT, 69M) retains 95.1\% of teacher quality and outperforms DSE-Qwen2 (2B) on v2 and v3 with 32$\times$ fewer parameters and 50$\times$ lower CPU query latency, at a total training cost under 13 GPU-hours.
- Abstract(参考訳): Vision-Language Model (VLM)ベースのレトリバーは、高度な視覚文書検索(VDR)によって印象的な品質を実現している。
ドキュメントインデックスとクエリエンコーディングの両方に同じマルチビリオンパラメータエンコーダが必要です。
文書は視覚的に複雑であり、強い視覚的理解を必要とするのに対して、クエリは単なる短い文字列である。
凍結された2B VLM教師は文書をオフラインにインデックスし、蒸留されたテキストのみの学生は69Mのパラメータで推論時にクエリをエンコードする。
主要な設計上の選択は蒸留の目的である。
3つのバックボーンと22のViDoReベンチマークデータセットの6つの目標を体系的に比較した結果、クエリテキストに対するポイントワイドなコサインアライメントは、ランキングベースとコントラストのある代替品より一貫して優れており、事前キャッシュされた教師クエリの埋め込みとトレーニング中のドキュメント処理が不要であることがわかった。
さらに,言語間移動を主要な性能ボトルネックとして認識し,機械翻訳クエリによるトレーニングデータの拡大により,安価に解決する。
結果として生まれたNanoVDR-S-Multi (DistilBERT, 69M)は、教師の質の95.1\%を保持し、v2とv3のDSE-Qwen2(2B)を32$\times$少ないパラメータと50$\times$低いCPUクエリレイテンシで上回っている。
関連論文リスト
- SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents [10.146296597660598]
既存のビジュアル文書検索(VDR)のベンチマークは、非英語言語と公式出版物の構造的複雑さを概ね見落としている。
SDS KoPub VDRは,韓国の公文書の検索と理解のための,最初の大規模公開ベンチマークである。
ベンチマークは361の現実世界のドキュメント上に構築されており、KOGL Type 1ライセンス下の256ファイル、公式の法的ポータルからの105ファイルが含まれている。
論文 参考訳(メタデータ) (2025-11-07T01:16:07Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - MMDocIR: Benchmarking Multimodal Retrieval for Long Documents [44.02536756069517]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。