論文の概要: SERVAL: Surprisingly Effective Zero-Shot Visual Document Retrieval Powered by Large Vision and Language Models
- arxiv url: http://arxiv.org/abs/2509.15432v1
- Date: Thu, 18 Sep 2025 21:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.902998
- Title: SERVAL: Surprisingly Effective Zero-Shot Visual Document Retrieval Powered by Large Vision and Language Models
- Title(参考訳): SERVAL: 大規模ビジョンと言語モデルによる驚くほど効果的なゼロショットビジュアルドキュメント検索
- Authors: Thong Nguyen, Yibin Lei, Jia-Huei Ju, Andrew Yates,
- Abstract要約: Visual Document Retrieval (VDR) は通常、文書イメージを直接埋め込むために訓練された特殊なバイエンコーダを使用してテキストから画像の検索を行う。
我々はゼロショット生成・符号化パイプラインを再考し、まず視覚言語モデルを用いて各文書画像の詳細なテキスト記述を生成する。
ViDoRe-v2ベンチマークでは、63.4%のnDCG@5に達し、マルチベクトルビジュアルドキュメントエンコーダで最強である。
- 参考スコア(独自算出の注目度): 17.85605201420847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Document Retrieval (VDR) typically operates as text-to-image retrieval using specialized bi-encoders trained to directly embed document images. We revisit a zero-shot generate-and-encode pipeline: a vision-language model first produces a detailed textual description of each document image, which is then embedded by a standard text encoder. On the ViDoRe-v2 benchmark, the method reaches 63.4% nDCG@5, surpassing the strongest specialised multi-vector visual document encoder. It also scales better to large collections and offers broader multilingual coverage. Analysis shows that modern vision-language models capture complex textual and visual cues with sufficient granularity to act as a reusable semantic proxy. By offloading modality alignment to pretrained vision-language models, our approach removes the need for computationally intensive text-image contrastive training and establishes a strong zero-shot baseline for future VDR systems.
- Abstract(参考訳): Visual Document Retrieval (VDR) は通常、文書イメージを直接埋め込むために訓練された特殊なバイエンコーダを使用してテキストから画像の検索を行う。
視覚言語モデルはまず、各文書画像の詳細なテキスト記述を生成し、それを標準テキストエンコーダに埋め込む。
ViDoRe-v2ベンチマークでは、63.4%のnDCG@5に到達し、最強の特殊化されたマルチベクトルビジュアルドキュメントエンコーダを上回った。
また、大規模なコレクションにスケールし、より広範な多言語カバレッジを提供する。
解析によれば、現代の視覚言語モデルは、再利用可能なセマンティックプロキシとして機能するのに十分な粒度の複雑なテキストと視覚の手がかりをキャプチャする。
事前訓練された視覚言語モデルにモダリティアライメントをオフロードすることにより、計算集約型テキストイメージコントラストトレーニングの必要性を排除し、将来的なVDRシステムのための強力なゼロショットベースラインを確立する。
関連論文リスト
- Visual Lexicon: Rich Image Features in Language Space [99.94214846451347]
ViLexは、リッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャする。
ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成する。
言語空間に埋め込まれた画像として、ViLexトークンは自然言語の合成性を利用する。
論文 参考訳(メタデータ) (2024-12-09T18:57:24Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [18.080447065002392]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。
我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文 参考訳(メタデータ) (2023-06-09T23:51:11Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。