論文の概要: Incorporating Token Importance in Multi-Vector Retrieval
- arxiv url: http://arxiv.org/abs/2511.16106v1
- Date: Thu, 20 Nov 2025 06:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.508209
- Title: Incorporating Token Importance in Multi-Vector Retrieval
- Title(参考訳): マルチベクター検索におけるトークンの重要性
- Authors: Archish S, Ankit Garg, Kirankumar Shiragur, Neeraj Kayal,
- Abstract要約: ColBERTはBERTを使用してクエリとドキュメントをエンコードし、トークンレベルのベクトル表現上のきめ細かい相互作用を通じて類似性を計算する。
本稿では,クエリトークンのコントリビューションに対する重み付け和を計算することで,チャンファー距離関数の拡張を提案する。
IDFを用いたゼロショット設定では,Recall@10では平均1.28%,微調整では3.66%向上した。
- 参考スコア(独自算出の注目度): 12.87368993054882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ColBERT introduced a late interaction mechanism that independently encodes queries and documents using BERT, and computes similarity via fine-grained interactions over token-level vector representations. This design enables expressive matching while allowing efficient computation of scores, as the multi-vector document representations could be pre-computed offline. ColBERT models distance using a Chamfer-style function: for each query token, it selects the closest document token and sums these distances across all query tokens. In our work, we explore enhancements to the Chamfer distance function by computing a weighted sum over query token contributions, where weights reflect the token importance. Empirically, we show that this simple extension, requiring only token-weight training while keeping the multi-vector representations fixed, further enhances the expressiveness of late interaction multi-vector mechanism. In particular, on the BEIR benchmark, our method achieves an average improvement of 1.28\% in Recall@10 in the zero-shot setting using IDF-based weights, and 3.66\% through few-shot fine-tuning.
- Abstract(参考訳): ColBERTは、BERTを使用してクエリとドキュメントを独立にエンコードする遅延相互作用機構を導入し、トークンレベルのベクトル表現に対するきめ細かいインタラクションを通じて類似性を計算する。
この設計は、複数ベクトル文書表現をオフラインで事前計算できるため、効率的なスコア計算を可能にしながら、表現的マッチングを可能にする。
ColBERTは、Chamferスタイルの関数を使用して距離をモデル化する。各クエリトークンに対して、最も近いドキュメントトークンを選択し、これらの距離を全てのクエリトークンにまとめる。
本研究では,トークンの重要度を重み付けしたクエリトークンのコントリビューションに対する重み付け和を計算することで,チャンファー距離関数の強化について検討する。
経験的に、この単純な拡張は、多ベクトル表現を固定しながらトークンウェイトなトレーニングのみを必要とすることを示し、遅延相互作用の多ベクトル機構の表現性をさらに向上させる。
特に, BEIR ベンチマークでは, IDF を用いたゼロショット設定では Recall@10 が平均 1.28 % 向上し, 少数ショットの微調整により 3.66 % 向上した。
関連論文リスト
- Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - QuickMerge++: Fast Token Merging with Autoregressive Prior [6.185573921868495]
高速な次世代予測のための軽量フレームワークであるQuickMergeを提案する。
セマンティックサリエンス推定、フレキシブルトークン予算、ARアライメントを組み合わせることで、QuickMergeはより少ないトークンで正確な生成を可能にする。
マルチモダリティドメイン間でQuickMergeを評価し、計算精度のトレードオフを一貫した改善を実証する。
論文 参考訳(メタデータ) (2025-08-16T06:07:33Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Rethinking the Role of Token Retrieval in Multi-Vector Retrieval [22.508682857329912]
ColBERT (Khattab and Zaharia, 2020) のようなマルチベクトル検索モデルは、クエリとドキュメント間のトークンレベルの相互作用を可能にする。
提案するXTR, ConteXtualized Token Retrieverは, 単純かつ斬新で客観的な関数を導入し, まず最も重要な文書トークンを検索する。
論文 参考訳(メタデータ) (2023-04-04T17:37:06Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Multi-Vector Retrieval as Sparse Alignment [21.892007741798853]
本稿では,クエリと文書トークンの相互アライメントを疎結合に学習する,新しいマルチベクタ検索モデルを提案する。
エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。
我々のモデルは、しばしば解釈可能なアライメントを生成し、より大きな言語モデルからその性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-11-02T16:49:58Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。