論文の概要: ModernVBERT: Towards Smaller Visual Document Retrievers
- arxiv url: http://arxiv.org/abs/2510.01149v1
- Date: Wed, 01 Oct 2025 17:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.694766
- Title: ModernVBERT: Towards Smaller Visual Document Retrievers
- Title(参考訳): ModernVBERT: より小さなビジュアルドキュメントレトリバーを目指して
- Authors: Paul Teiletche, Quentin Macé, Max Conti, Antonio Loison, Gautier Viaud, Pierre Colombo, Manuel Faysse,
- Abstract要約: ModernVBERTはコンパクトな視覚言語エンコーダで、文書検索タスクで微調整された場合、最大10倍のモデルで性能が向上する。
我々は、注目マスキング、画像解像度、モダリティアライメントデータレギュレーション、および中心的なパフォーマンス要因として出現する相対的な目標を中心とする遅延相互作用の影響を計測する。
- 参考スコア(独自算出の注目度): 8.752477008109844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal embedding models are gaining prevalence, notably for document retrieval as efficient alternatives to text-only pipelines. These models are typically built by finetuning large vision-language decoders (VLMs) with contrastive losses on text-image pairs. In this work, we show that, while cost-efficient, this repurposing approach often bottlenecks retrieval performance. Through controlled experiments, we establish a principled recipe for improving visual document retrieval models. We notably measure the impact of attention masking, image resolution, modality alignment data regimes, and late interaction centered contrastive objectives which emerge as central performance factors. Building on these insights, we release ModernVBERT, a compact 250M-parameter vision-language encoder that outperforms models up to 10 times larger when finetuned on document retrieval tasks. Models and code are made available at https://huggingface.co/ModernVBERT.
- Abstract(参考訳): マルチモーダル埋め込みモデルは普及しており、特に文書検索はテキストのみのパイプラインに代わる効率的な代替手段である。
これらのモデルは典型的には、大きな視覚言語デコーダ(VLM)を微調整して構築され、テキストイメージ対に対照的な損失を与える。
本研究では,コスト効率は高いが,この再資源化手法は検索性能のボトルネックとなることが多いことを示す。
制御された実験を通して、視覚的文書検索モデルを改善するための原則的なレシピを確立する。
特に、注目マスキング、画像解像度、モダリティアライメントデータレシエーション、そして、中心的なパフォーマンス要因として現れる対照的な目標を中心とする遅延相互作用の影響を計測する。
これらの知見に基づいて、文書検索タスクを微調整した場合、最大10倍の精度でモデルを生成する、コンパクトな250Mパラメータビジョン言語エンコーダであるModernVBERTをリリースする。
モデルとコードはhttps://huggingface.co/ModernVBERT.comで公開されている。
関連論文リスト
- Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - SERVAL: Surprisingly Effective Zero-Shot Visual Document Retrieval Powered by Large Vision and Language Models [17.85605201420847]
Visual Document Retrieval (VDR) は通常、文書イメージを直接埋め込むために訓練された特殊なバイエンコーダを使用してテキストから画像の検索を行う。
我々はゼロショット生成・符号化パイプラインを再考し、まず視覚言語モデルを用いて各文書画像の詳細なテキスト記述を生成する。
ViDoRe-v2ベンチマークでは、63.4%のnDCG@5に達し、マルチベクトルビジュアルドキュメントエンコーダで最強である。
論文 参考訳(メタデータ) (2025-09-18T21:11:13Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - ColPali: Efficient Document Retrieval with Vision Language Models [15.369861972085136]
我々は、複数のドメイン、言語、実用的な設定にまたがる様々なページレベルの検索タスクからなるVisual Document Retrieval Benchmark ViDoReを紹介する。
現代のシステムの本質的な複雑さと性能上の欠点は、ドキュメントページのイメージを直接埋め込むことで文書検索を行うという新しい概念を動機付けている。
文書ページの画像から高品質なマルチベクトル埋め込みを生成するために訓練されたビジョン言語モデルColPaliをリリースする。
論文 参考訳(メタデータ) (2024-06-27T15:45:29Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。