Fugu-MT 論文翻訳(概要): Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization

論文の概要: Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization

arxiv url: http://arxiv.org/abs/2506.21601v2
Date: Wed, 02 Jul 2025 03:32:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 22:56:23.372586
Title: Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization
Title（参考訳）: ColPaliの階層的パッチ圧縮:動的プルーニングと量子化による効率的なマルチベクトル文書検索
Authors: Duong Bach,
Abstract要約: ColPaliのようなマルチベクトル文書検索システムは、複雑なクエリのきめ細かいマッチングが優れているが、かなりのストレージと計算コストがかかる。検索精度を保ちながらColPaliの効率を向上する,きめ細かいパッチ圧縮フレームワークであるHPC-ColPaliを提案する。提案手法は,(1)1バイトのセントロイドインデックスにパッチ埋め込みを圧縮し,最大32$times$ストレージ削減を実現するK平均量子化,(2)Vision-Language Modelアテンション重みを利用した注意誘導動的プルーニングの3つの革新的手法を統合する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multi-vector document retrieval systems, such as ColPali, excel in fine-grained matching for complex queries but incur significant storage and computational costs due to their reliance on high-dimensional patch embeddings and late-interaction scoring. To address these challenges, we propose HPC-ColPali, a Hierarchical Patch Compression framework that enhances the efficiency of ColPali while preserving its retrieval accuracy. Our approach integrates three innovative techniques: (1) K-Means quantization, which compresses patch embeddings into 1-byte centroid indices, achieving up to 32$\times$ storage reduction; (2) attention-guided dynamic pruning, utilizing Vision-Language Model attention weights to retain only the top-$p\%$ most salient patches, reducing late-interaction computation by up to 60\% with less than 2\% nDCG@10 loss; and (3) optional binary encoding of centroid indices into $b$-bit strings ($b=\lceil\log_2 K\rceil$), enabling rapid Hamming distance-based similarity search for resource-constrained environments. Evaluated on the ViDoRe and SEC-Filings datasets, HPC-ColPali achieves 30--50\% lower query latency under HNSW indexing while maintaining high retrieval precision. When integrated into a Retrieval-Augmented Generation pipeline for legal summarization, it reduces hallucination rates by 30\% and halves end-to-end latency. These advancements establish HPC-ColPali as a scalable and efficient solution for multi-vector document retrieval across diverse applications. Code is available at https://github.com/DngBack/HPC-ColPali.
Abstract（参考訳）: ColPaliのようなマルチベクトル文書検索システムは、複雑なクエリのきめ細かいマッチングに優れるが、高次元のパッチ埋め込みと遅延相互作用のスコアリングに依存するため、ストレージと計算コストが大幅に低下する。これらの課題に対処するため,検索精度を保ちながらColPaliの効率を向上させる階層型パッチ圧縮フレームワークであるHPC-ColPaliを提案する。提案手法は,(1)1バイトのセントロイドインデックスにパッチ埋め込みを圧縮し,最大32$\times$ストレージリダクションを達成するK平均量子化,(2)ビジョンランゲージモデルを用いた注意誘導型動的プルーニングにより,最上位の$p\%$サリアンパッチのみを保持し,遅延相互作用計算を2\% nDCG@10ロス未満で60\%削減する,(3) セントロイドインデックスの任意のバイナリ符号化を$b$-bit文字列($b=\lceil\log_2 K\rceil$)に変換する,という3つの革新的な手法を統合する。 ViDoReデータセットとSEC-Filingsデータセットに基づいて評価すると、HPC-ColPaliは、高い検索精度を維持しながら、HNSWインデックス化下で30～50%低いクエリレイテンシを実現する。法的な要約のためにRetrieval-Augmented Generationパイプラインに統合されると、幻覚率を30\%削減し、エンドツーエンドのレイテンシを半減する。これらの進歩により、HPC-ColPaliは多様なアプリケーションにまたがるマルチベクトル文書検索のスケーラブルで効率的なソリューションとして確立される。コードはhttps://github.com/DngBack/HPC-ColPali.comで入手できる。

関連論文リスト

TurboReg: TurboClique for Robust and Efficient Point Cloud Registration [13.793023246079418]
TurboRegは、新しい軽量cliqueであるTurboCliqueと、高度に並列化可能なPivot-Guided Search (PGS)アルゴリズムに基づいて構築されている。実験によると、TurboRegは複数の実世界のデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-02T07:50:24Z)
Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings [70.26204343623215]
ColPali/ColQwen2は各ページを複数のパッチレベルの埋め込みにエンコードし、過剰なメモリ使用率をもたらす。本研究では,ページごとのパッチ埋め込みを最小性能劣化時に低減する方法について検討する。
論文参考訳（メタデータ） (2025-06-05T13:06:01Z)
Learn from the Past: Fast Sparse Indexing for Large Language Model Decoding [7.142158555793151]
大規模言語モデル(LLM)は、より長いコンテキストをサポートし続ける。復号化時のキーバリューキャッシュのメモリ需要は急速に増大する。スパースアテンション機構は、選択されたキー値対に対してのみ注意重みを計算することでこの問題を軽減する。既存の方法は、各デコードステップを独立したプロセスとして扱うことが多い。本研究では,過去の注目パターンに基づいて,スパースインデックス化候補を動的に構築する高速化手法LFPSを提案する。
論文参考訳（メタデータ） (2025-05-30T02:35:59Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。 data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文参考訳（メタデータ） (2024-10-17T22:28:07Z)
Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。 SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
LeCo: Lightweight Compression via Learning Serial Correlations [9.108815508920882]
軽量データ圧縮は、カラムストアが分析クエリのパフォーマンスを向上する鍵となる技術である。本稿では,機械学習を用いて値列内のシリアル冗長性を自動的に除去するフレームワークであるLeCo(Learned Compression)を提案する。我々は、Arrow列実行エンジンのデータ解析クエリで最大5.2倍のスピードで、RocksDBのスループットが16%向上するのを観察した。
論文参考訳（メタデータ） (2023-06-27T10:46:36Z)
Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文参考訳（メタデータ） (2022-10-11T15:12:41Z)
HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image Retrieval [20.53316810731414]
ハイブリッドプロキシペアロス(HyP$2$ロス)を用いた新しいメトリクス学習フレームワークを提案する。提案されたHyP$2$Losは、学習可能なプロキシによるハイパースフィア空間の最適化と、無関係なペアのデータ-データ相関の探索に焦点を当てている。
論文参考訳（メタデータ） (2022-08-14T15:06:27Z)
Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-13T02:44:05Z)
Injecting Domain Adaptation with Learning-to-hash for Effective and Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文参考訳（メタデータ） (2022-05-23T17:53:44Z)
ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse Coding [86.40042104698792]
スパース符号問題としてニューラルアーキテクチャ探索を定式化する。実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUしか必要としない。本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-10-13T04:34:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。