論文の概要: Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework
- arxiv url: http://arxiv.org/abs/2602.19549v1
- Date: Mon, 23 Feb 2026 06:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.703246
- Title: Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework
- Title(参考訳): ベクトル空間の計算:Prune-then-Mergeフレームワークによる効率的なマルチベクトルビジュアル文書検索に向けて
- Authors: Yibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Jiahao Huo, Shuliang Liu, James Kwok, Xuming Hu,
- Abstract要約: Visual Document Retrieval (VDR) は、視覚的にリッチな膨大なコーパス内の関連ページを検索することを目的としている。
プルーニングやマージといった現在の効率性は不完全であり、圧縮率と特徴の忠実さのトレードオフが難しい。
本稿では,これらの相補的アプローチを相補する新しい2段階フレームワークPrune-then-Mergeを紹介する。
- 参考スコア(独自算出の注目度): 39.59931739606983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Document Retrieval (VDR), which aims to retrieve relevant pages within vast corpora of visually-rich documents, is of significance in current multimodal retrieval applications. The state-of-the-art multi-vector paradigm excels in performance but suffers from prohibitive overhead, a problem that current efficiency methods like pruning and merging address imperfectly, creating a difficult trade-off between compression rate and feature fidelity. To overcome this dilemma, we introduce Prune-then-Merge, a novel two-stage framework that synergizes these complementary approaches. Our method first employs an adaptive pruning stage to filter out low-information patches, creating a refined, high-signal set of embeddings. Subsequently, a hierarchical merging stage compresses this pre-filtered set, effectively summarizing semantic content without the noise-induced feature dilution seen in single-stage methods. Extensive experiments on 29 VDR datasets demonstrate that our framework consistently outperforms existing methods, significantly extending the near-lossless compression range and providing robust performance at high compression ratios.
- Abstract(参考訳): Visual Document Retrieval (VDR) は、視覚的にリッチな膨大なコーパス内で関連ページを検索することを目的としており、現在のマルチモーダル検索アプリケーションにおいて重要である。
最先端のマルチベクターパラダイムは性能が優れているが、プルーニングやマージといった現在の効率の手法が不完全な問題であり、圧縮率と特徴の忠実さのトレードオフが難しい。
このジレンマを克服するために、これらの相補的アプローチを相乗化する新しい2段階のフレームワークPrune-then-Mergeを導入する。
提案手法では,まず適応的なプルーニングステージを用いて低情報パッチをフィルタリングし,高信号の埋め込みを行う。
その後、階層的なマージング段階は、この事前フィルタされた集合を圧縮し、単一段法で見られる雑音による特徴希釈を伴わずに意味内容を効果的に要約する。
29のVDRデータセットに対する大規模な実験により、我々のフレームワークは既存の手法を一貫して上回り、ほぼロスレスな圧縮範囲を著しく拡張し、高い圧縮比で堅牢な性能を提供することを示した。
関連論文リスト
- Multivector Reranking in the Era of Strong First-Stage Retrievers [11.098422338598454]
2つの公開データセット上で、最先端のマルチベクタ検索手法を再現する。
トークンレベルの集合フェーズを単一ベクトル文書検索器に置き換えることで,より小さく,より意味的に一貫性のある候補セットが生成されることを示す。
我々の2段階のアプローチは、最先端のマルチベクター検索システムに対して24ドル以上のスピードアップを実現し、同等または優れた検索品質を維持しています。
論文 参考訳(メタデータ) (2026-01-08T18:22:18Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Diverse Text-to-Image Generation via Contrastive Noise Optimization [60.48914865049489]
テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。
既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。
本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
論文 参考訳(メタデータ) (2025-10-04T13:51:32Z) - FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models [59.8871829077739]
FastFitは、キャッシュ可能な新しい拡散アーキテクチャに基づいた、高速なマルチ参照仮想試行フレームワークである。
本モデルでは,パラメータのオーバーヘッドを無視して参照特徴符号化をデノナイズ処理から完全に切り離す。
これにより、参照機能は一度だけ計算され、すべてのステップで損失なく再利用される。
論文 参考訳(メタデータ) (2025-08-28T09:25:52Z) - Sparse and Dense Retrievers Learn Better Together: Joint Sparse-Dense Optimization for Text-Image Retrieval [11.20814404187967]
本稿では,自己知識蒸留による濃密表現と疎表現の双方向学習を実現するフレームワークを提案する。
この双方向学習は、両表現の共有教師信号として機能する、濃密で疎密な類似度の重み付けされた合計である類似度スコアを用いて達成される。
MSCOCOとFlickr30kの実験は、スパースレトリバーが既存のスパースベースラインを上回るだけでなく、高密度のリトリーバーよりも高いパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-08-22T13:25:58Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。