論文の概要: Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2604.10167v1
- Date: Sat, 11 Apr 2026 11:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.886006
- Title: Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval
- Title(参考訳): 視覚遅延チャンキング : 効率的な視覚文書検索のための文脈チャンキングの実証的研究
- Authors: Yibo Yan, Mingdong Ou, Yi Cao, Jiahao Huo, Xin Zou, Shuliang Liu, James Kwok, Xuming Hu,
- Abstract要約: ColChunkは、マルチモーダル遅延チャンキングを導入し、効率的なコンテキスト化されたマルチベクタを構築するプラグイン・アンド・プレイフレームワークである。
24のVDRデータセットに対する評価は、ColChunkがストレージ要求の90%以上を削減したことを示している。
- 参考スコア(独自算出の注目度): 39.59931739606983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-vector models dominate Visual Document Retrieval (VDR) due to their fine-grained matching capabilities, but their high storage and computational costs present a major barrier to practical deployment. In this paper, we propose ColChunk, a plug-and-play framework that introduces multimodal late chunking to construct efficient, contextualized multi-vectors. Unlike existing pruning or fixed-token approaches, ColChunk employs hierarchical clustering on patch-level embeddings, fused with a 2D position prior to ensure spatial-semantic coherence. This adaptive grouping allows for a content-aware representation that preserves global context while drastically reducing the vector count. Evaluations across 24 VDR datasets demonstrate ColChunk achieves over a 90% reduction in storage requirements while simultaneously delivering a 9-point average improvement in nDCG@5 across representative single-vector models. ColChunk provides a practical solution for balancing retrieval accuracy and efficiency in visual document systems.
- Abstract(参考訳): マルチベクターモデルがVisual Document Retrieval(VDR)を支配しているのは、その粒度の細かいマッチング機能のためであるが、その高いストレージと計算コストは、実用的なデプロイメントにおいて大きな障壁となる。
本稿では,マルチモーダル・レイト・チャンキングを導入し,効率的なコンテキスト対応型マルチベクタを構築するためのプラグイン・アンド・プレイフレームワークであるColChunkを提案する。
既存のプルーニングや固定整合アプローチとは異なり、ColChunkはパッチレベルの埋め込みに階層的クラスタリングを採用しており、空間意味的コヒーレンスを保証するために2D位置と融合している。
このアダプティブグルーピングは、ベクトル数を大幅に削減しつつ、グローバルコンテキストを保存するコンテンツ認識表現を可能にする。
24のVDRデータセットに対する評価では、ColChunkはストレージ要件の90%以上を削減しつつ、代表的なシングルベクタモデルに対して、nDCG@5の9ポイント平均改善を実現している。
ColChunkは、ビジュアルドキュメントシステムにおける検索精度と効率のバランスをとるための実用的なソリューションを提供する。
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations [39.98860473310998]
ColParseは、ドキュメント解析モデルを利用して、レイアウトインフォームドされた小さなサブイメージの埋め込みを生成する新しいパラダイムである。
実験により,本手法はストレージ要求を95%以上削減し,同時に性能向上を図っている。
論文 参考訳(メタデータ) (2026-03-02T09:55:00Z) - Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework [39.59931739606983]
Visual Document Retrieval (VDR) は、視覚的にリッチな膨大なコーパス内の関連ページを検索することを目的としている。
プルーニングやマージといった現在の効率性は不完全であり、圧縮率と特徴の忠実さのトレードオフが難しい。
本稿では,これらの相補的アプローチを相補する新しい2段階フレームワークPrune-then-Mergeを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:45:19Z) - CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.88471147281406]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。
コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。
本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (2026-01-29T04:47:27Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。