論文の概要: Visual RAG Toolkit: Scaling Multi-Vector Visual Retrieval with Training-Free Pooling and Multi-Stage Search
- arxiv url: http://arxiv.org/abs/2602.12510v1
- Date: Fri, 13 Feb 2026 01:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.803205
- Title: Visual RAG Toolkit: Scaling Multi-Vector Visual Retrieval with Training-Free Pooling and Multi-Stage Search
- Title(参考訳): Visual RAG Toolkit: トレーニング不要のポーリングとマルチステージ検索によるマルチベクタビジュアル検索のスケールアップ
- Authors: Ara Yeroyan,
- Abstract要約: マルチベクター・ビジュアル・レトリバーは精度は高いが、各ページが数千のベクターを生成するため、スケールが悪くなる。
トレーニング不要,モデル対応,マルチステージ検索による視覚的マルチベクトル検索システムであるVisual RAG Toolkitを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-vector visual retrievers (e.g., ColPali-style late interaction models) deliver strong accuracy, but scale poorly because each page yields thousands of vectors, making indexing and search increasingly expensive. We present Visual RAG Toolkit, a practical system for scaling visual multi-vector retrieval with training-free, model-aware pooling and multi-stage retrieval. Motivated by Matryoshka Embeddings, our method performs static spatial pooling - including a lightweight sliding-window averaging variant - over patch embeddings to produce compact tile-level and global representations for fast candidate generation, followed by exact MaxSim reranking using full multi-vector embeddings. Our design yields a quadratic reduction in vector-to-vector comparisons by reducing stored vectors per page from thousands to dozens, notably without requiring post-training, adapters, or distillation. Across experiments with interaction-style models such as ColPali and ColSmol-500M, we observe that over the limited ViDoRe v2 benchmark corpus 2-stage retrieval typically preserves NDCG and Recall @ 5/10 with minimal degradation, while substantially improving throughput (approximately 4x QPS); with sensitivity mainly at very large k. The toolkit additionally provides robust preprocessing - high resolution PDF to image conversion, optional margin/empty-region cropping and token hygiene (indexing only visual tokens) - and a reproducible evaluation pipeline, enabling rapid exploration of two-, three-, and cascaded retrieval variants. By emphasizing efficiency at common cutoffs (e.g., k <= 10), the toolkit lowers hardware barriers and makes state-of-the-art visual retrieval more accessible in practice.
- Abstract(参考訳): マルチベクタビジュアルレトリバー(例えばColPaliスタイルの遅延相互作用モデル)は精度は高いが、各ページが数千のベクタを生成するためスケーラビリティが悪く、インデックス化や検索がますます高価になる。
トレーニング不要、モデル対応、マルチステージ検索による視覚的マルチベクトル検索の実践的システムであるVisual RAG Toolkitを提案する。
本手法はMatryoshka Embeddingsによって実現され,高速な候補生成のためのコンパクトなタイルレベルおよびグローバル表現を生成するために,パッチ埋め込みよりも軽量なスライディングウィンドウ平均化バリアントを含む静的空間プーリングを行う。
我々の設計では、ページあたりの保存ベクトルを数千から数十に減らし、ベクターとベクターの比較を2次的に減らし、特にポストトレーニング、アダプタ、蒸留を必要としない。
ColPaliやColSmol-500Mといったインタラクションスタイルのモデルを用いた実験では、制限されたViDoRe v2ベンチマークコーパス2ステージ検索では、NDCGとRecall @ 5/10を最小限の劣化で保存するが、スループット(約4倍 QPS)は大幅に向上し、主に k で感度が向上する。
このツールキットは、画像変換のための高解像度のPDF、オプションのマージン/空き領域のトリミング、トークン衛生(ビジュアルトークンのみをインデクシングする)、再現可能な評価パイプラインなど、堅牢な事前処理を提供する。
共通のカットオフ(例: k <= 10)での効率性を強調することで、このツールキットはハードウェア障壁を低くし、最先端のビジュアル検索を現実的により使いやすくする。
関連論文リスト
- CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.88471147281406]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。
コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。
本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (2026-01-29T04:47:27Z) - MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation [92.57609195819647]
MuSASplatは、ポーズなしフィードフォワード3Dガウスモデルの計算負担を劇的に削減する新しいフレームワークである。
我々のアプローチの中心は、ほんのわずかなトレーニングパラメータだけで、ViTベースのアーキテクチャを効率的に微調整できる軽量なマルチスケールアダプタである。
論文 参考訳(メタデータ) (2025-12-08T04:56:46Z) - Hybrid-Vector Retrieval for Visually Rich Documents: Combining Single-Vector Efficiency and Multi-Vector Accuracy [36.03315207229038]
HEAVENは、視覚的にリッチな文書検索のための2段階のハイブリッドベクトルフレームワークである。
Visually-Summarized Pages上で、単一のベクターメソッドを使用して、候補ページを効率的に検索する。
クエリトークンを言語的に重要度でフィルタリングし、冗長な計算を減らしながら、マルチベクタ方式で候補をリランクする。
論文 参考訳(メタデータ) (2025-10-25T08:27:37Z) - Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization [10.476757608225475]
マルチモーダルエンコーダは、視覚文書検索の境界を押し広げている。
このパラダイムに依存する最近のモデルは、クエリやドキュメントの表現のサイズを大幅に拡大しています。
軽量な高密度テキストレトリバーが、より強力な視覚中心モデルを強化することができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-10-06T17:12:53Z) - SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Deep Forest with Hashing Screening and Window Screening [25.745779145969053]
我々はgcForestの多粒度走査のためのハッシュスクリーニング機構を導入する。
我々は,HW-Forestと呼ばれる,ハッシュスクリーニングとウィンドウスクリーニングという2つの戦略を採用するモデルを提案する。
実験の結果,HW-Forestは他のモデルよりも精度が高く,時間コストも低減された。
論文 参考訳(メタデータ) (2022-07-25T07:39:55Z) - Vision Transformer Slimming: Multi-Dimension Searching in Continuous
Optimization Space [35.04846842178276]
複数の次元にまたがってそのようなサブ構造を探索できる純粋視覚トランスフォーマースライミング(ViT-Slim)フレームワークを導入する。
本手法は,各次元の連続探索空間におけるグローバルな重要性を反映した,事前定義された因子による学習可能かつ統一されたl1空間制約に基づく。
我々のViT-Slimは、パラメータの最大40%と様々な視覚変換器上でのFLOPを圧縮でき、ImageNetの精度は0.6%向上する。
論文 参考訳(メタデータ) (2022-01-03T18:59:54Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。