論文の概要: Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization
- arxiv url: http://arxiv.org/abs/2506.21601v2
- Date: Wed, 02 Jul 2025 03:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 22:56:23.372586
- Title: Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization
- Title(参考訳): ColPaliの階層的パッチ圧縮:動的プルーニングと量子化による効率的なマルチベクトル文書検索
- Authors: Duong Bach,
- Abstract要約: ColPaliのようなマルチベクトル文書検索システムは、複雑なクエリのきめ細かいマッチングが優れているが、かなりのストレージと計算コストがかかる。
検索精度を保ちながらColPaliの効率を向上する,きめ細かいパッチ圧縮フレームワークであるHPC-ColPaliを提案する。
提案手法は,(1)1バイトのセントロイドインデックスにパッチ埋め込みを圧縮し,最大32$times$ストレージ削減を実現するK平均量子化,(2)Vision-Language Modelアテンション重みを利用した注意誘導動的プルーニングの3つの革新的手法を統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-vector document retrieval systems, such as ColPali, excel in fine-grained matching for complex queries but incur significant storage and computational costs due to their reliance on high-dimensional patch embeddings and late-interaction scoring. To address these challenges, we propose HPC-ColPali, a Hierarchical Patch Compression framework that enhances the efficiency of ColPali while preserving its retrieval accuracy. Our approach integrates three innovative techniques: (1) K-Means quantization, which compresses patch embeddings into 1-byte centroid indices, achieving up to 32$\times$ storage reduction; (2) attention-guided dynamic pruning, utilizing Vision-Language Model attention weights to retain only the top-$p\%$ most salient patches, reducing late-interaction computation by up to 60\% with less than 2\% nDCG@10 loss; and (3) optional binary encoding of centroid indices into $b$-bit strings ($b=\lceil\log_2 K\rceil$), enabling rapid Hamming distance-based similarity search for resource-constrained environments. Evaluated on the ViDoRe and SEC-Filings datasets, HPC-ColPali achieves 30--50\% lower query latency under HNSW indexing while maintaining high retrieval precision. When integrated into a Retrieval-Augmented Generation pipeline for legal summarization, it reduces hallucination rates by 30\% and halves end-to-end latency. These advancements establish HPC-ColPali as a scalable and efficient solution for multi-vector document retrieval across diverse applications. Code is available at https://github.com/DngBack/HPC-ColPali.
- Abstract(参考訳): ColPaliのようなマルチベクトル文書検索システムは、複雑なクエリのきめ細かいマッチングに優れるが、高次元のパッチ埋め込みと遅延相互作用のスコアリングに依存するため、ストレージと計算コストが大幅に低下する。
これらの課題に対処するため,検索精度を保ちながらColPaliの効率を向上させる階層型パッチ圧縮フレームワークであるHPC-ColPaliを提案する。
提案手法は,(1)1バイトのセントロイドインデックスにパッチ埋め込みを圧縮し,最大32$\times$ストレージリダクションを達成するK平均量子化,(2)ビジョンランゲージモデルを用いた注意誘導型動的プルーニングにより,最上位の$p\%$サリアンパッチのみを保持し,遅延相互作用計算を2\% nDCG@10ロス未満で60\%削減する,(3) セントロイドインデックスの任意のバイナリ符号化を$b$-bit文字列($b=\lceil\log_2 K\rceil$)に変換する,という3つの革新的な手法を統合する。
ViDoReデータセットとSEC-Filingsデータセットに基づいて評価すると、HPC-ColPaliは、高い検索精度を維持しながら、HNSWインデックス化下で30~50%低いクエリレイテンシを実現する。
法的な要約のためにRetrieval-Augmented Generationパイプラインに統合されると、幻覚率を30\%削減し、エンドツーエンドのレイテンシを半減する。
これらの進歩により、HPC-ColPaliは多様なアプリケーションにまたがるマルチベクトル文書検索のスケーラブルで効率的なソリューションとして確立される。
コードはhttps://github.com/DngBack/HPC-ColPali.comで入手できる。
関連論文リスト
- TurboReg: TurboClique for Robust and Efficient Point Cloud Registration [13.793023246079418]
TurboRegは、新しい軽量cliqueであるTurboCliqueと、高度に並列化可能なPivot-Guided Search (PGS)アルゴリズムに基づいて構築されている。
実験によると、TurboRegは複数の実世界のデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-02T07:50:24Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - LeCo: Lightweight Compression via Learning Serial Correlations [9.108815508920882]
軽量データ圧縮は、カラムストアが分析クエリのパフォーマンスを向上する鍵となる技術である。
本稿では,機械学習を用いて値列内のシリアル冗長性を自動的に除去するフレームワークであるLeCo(Learned Compression)を提案する。
我々は、Arrow列実行エンジンのデータ解析クエリで最大5.2倍のスピードで、RocksDBのスループットが16%向上するのを観察した。
論文 参考訳(メタデータ) (2023-06-27T10:46:36Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。