論文の概要: Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings
- arxiv url: http://arxiv.org/abs/2506.04997v1
- Date: Thu, 05 Jun 2025 13:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.714028
- Title: Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings
- Title(参考訳): ストレージ効率の良いビジュアル文書検索に向けて:パッチレベル埋め込みの削減に関する実証的研究
- Authors: Yubo Ma, Jinsong Li, Yuhang Zang, Xiaobao Wu, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Jiaqi Wang, Yixin Cao, Aixin Sun,
- Abstract要約: ColPali/ColQwen2は各ページを複数のパッチレベルの埋め込みにエンコードし、過剰なメモリ使用率をもたらす。
本研究では,ページごとのパッチ埋め込みを最小性能劣化時に低減する方法について検討する。
- 参考スコア(独自算出の注目度): 70.26204343623215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the strong performance of ColPali/ColQwen2 in Visualized Document Retrieval (VDR), it encodes each page into multiple patch-level embeddings and leads to excessive memory usage. This empirical study investigates methods to reduce patch embeddings per page at minimum performance degradation. We evaluate two token-reduction strategies: token pruning and token merging. Regarding token pruning, we surprisingly observe that a simple random strategy outperforms other sophisticated pruning methods, though still far from satisfactory. Further analysis reveals that pruning is inherently unsuitable for VDR as it requires removing certain page embeddings without query-specific information. Turning to token merging (more suitable for VDR), we search for the optimal combinations of merging strategy across three dimensions and develop Light-ColPali/ColQwen2. It maintains 98.2% of retrieval performance with only 11.8% of original memory usage, and preserves 94.6% effectiveness at 2.8% memory footprint. We expect our empirical findings and resulting Light-ColPali/ColQwen2 offer valuable insights and establish a competitive baseline for future research towards efficient VDR.
- Abstract(参考訳): Visualized Document Retrieval (VDR)におけるColPali/ColQwen2の強いパフォーマンスにもかかわらず、各ページを複数のパッチレベルの埋め込みにエンコードし、過剰なメモリ使用につながる。
本研究では,ページごとのパッチ埋め込みを最小性能劣化時に低減する方法について検討する。
トークンプルーニングとトークンマージという2つのトークン還元戦略を評価した。
トークンプルーニングに関しては、単純なランダム戦略が他の高度なプルーニング手法よりも優れているが、まだ満足できない。
さらに分析したところ、クエリ固有の情報なしに特定のページ埋め込みを削除する必要があるため、プルーニングは本質的にVDRには適さないことが判明した。
トークンマージ(よりVDRに適している)に転換し、3次元にわたるマージ戦略の最適組み合わせを探索し、Light-ColPali/ColQwen2を開発する。
98.2%の検索性能を維持し、元のメモリ使用量の11.8%しか保持せず、2.8%のメモリフットプリントで94.6%の効率を維持している。
実験結果と結果が得られたLight-ColPali/ColQwen2は貴重な洞察を与え、将来の効率的なVDR研究の基盤となることを期待する。
関連論文リスト
- Towards Lossless Token Pruning in Late-Interaction Retrieval Models [10.983837305643723]
ColBERTのような後期の相互作用型ニューラルIRモデルは、多くのベンチマークで競合効率と効率のトレードオフを提供する。
すべてのドキュメントトークンのコンテキスト表現を保持するには、巨大なメモリスペースが必要です。
本稿では,文書とクエリのスコアに影響を与えることなくトークンをエミュレートする方法を定義するための原則的アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-17T09:18:58Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Finding Needles in Emb(a)dding Haystacks: Legal Document Retrieval via Bagging and SVR Ensembles [51.0691253204425]
本稿では,サポートベクタ回帰アンサンブル,ブートストラップアグリゲーション(バッグ),およびドイツ法情報検索データベース(GerDaLIR)への埋め込み空間を利用した検索手法を提案する。
投票アンサンブルを用いてベースライン上のリコールの改善を示し、トレーニングやディープラーニングモデルを微調整することなく、有望な初期結果を提案する。
論文 参考訳(メタデータ) (2025-01-09T07:21:44Z) - Static Pruning in Dense Retrieval using Matrix Decomposition [12.899105656025018]
密集検索の時代には、文書のインデックス化と検索は主に、文書を埋め込みに変換するエンコーディングモデルに基づいている。
近年の研究では, 組込みサイズを減らし, 回収効率を向上できる可能性が示唆されている。
そこで本研究では,主成分分析による埋込み寸法の低減のための新しい静的プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T09:09:20Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - DIP: Deep Inverse Patchmatch for High-Resolution Optical Flow [7.73554718719193]
本稿では,高分解能光フロー推定のための新しいPatchmatchベースのフレームワークを提案する。
伝播とPatchmatchの局所探索の恩恵を受け、低メモリで高精度な結果が得られる。
提案手法は,KITTI2015ベンチマークのすべての指標で第1位,Sintelクリーンベンチマークでは第2位である。
論文 参考訳(メタデータ) (2022-04-01T10:13:59Z) - Generalized Binary Search Network for Highly-Efficient Multi-View Stereo [10.367295443948487]
カメラパラメータが既知のマルチビューステレオ(MVS)は、基本的に有効な深度範囲内の1次元探索問題である。
近年の深層学習に基づくMVS法は, 一般に深度範囲の深部仮説を高密度にサンプリングする。
本稿では,メモリフットプリントを大幅に削減する高効率MVSを提案する。
論文 参考訳(メタデータ) (2021-12-04T13:57:18Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。