論文の概要: Incorporating Token Importance in Multi-Vector Retrieval
- arxiv url: http://arxiv.org/abs/2511.16106v1
- Date: Thu, 20 Nov 2025 06:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.508209
- Title: Incorporating Token Importance in Multi-Vector Retrieval
- Title(参考訳): マルチベクター検索におけるトークンの重要性
- Authors: Archish S, Ankit Garg, Kirankumar Shiragur, Neeraj Kayal,
- Abstract要約: ColBERTはBERTを使用してクエリとドキュメントをエンコードし、トークンレベルのベクトル表現上のきめ細かい相互作用を通じて類似性を計算する。
本稿では,クエリトークンのコントリビューションに対する重み付け和を計算することで,チャンファー距離関数の拡張を提案する。
IDFを用いたゼロショット設定では,Recall@10では平均1.28%,微調整では3.66%向上した。
- 参考スコア(独自算出の注目度): 12.87368993054882
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ColBERT introduced a late interaction mechanism that independently encodes queries and documents using BERT, and computes similarity via fine-grained interactions over token-level vector representations. This design enables expressive matching while allowing efficient computation of scores, as the multi-vector document representations could be pre-computed offline. ColBERT models distance using a Chamfer-style function: for each query token, it selects the closest document token and sums these distances across all query tokens. In our work, we explore enhancements to the Chamfer distance function by computing a weighted sum over query token contributions, where weights reflect the token importance. Empirically, we show that this simple extension, requiring only token-weight training while keeping the multi-vector representations fixed, further enhances the expressiveness of late interaction multi-vector mechanism. In particular, on the BEIR benchmark, our method achieves an average improvement of 1.28\% in Recall@10 in the zero-shot setting using IDF-based weights, and 3.66\% through few-shot fine-tuning.
- Abstract(参考訳): ColBERTは、BERTを使用してクエリとドキュメントを独立にエンコードする遅延相互作用機構を導入し、トークンレベルのベクトル表現に対するきめ細かいインタラクションを通じて類似性を計算する。
この設計は、複数ベクトル文書表現をオフラインで事前計算できるため、効率的なスコア計算を可能にしながら、表現的マッチングを可能にする。
ColBERTは、Chamferスタイルの関数を使用して距離をモデル化する。各クエリトークンに対して、最も近いドキュメントトークンを選択し、これらの距離を全てのクエリトークンにまとめる。
本研究では,トークンの重要度を重み付けしたクエリトークンのコントリビューションに対する重み付け和を計算することで,チャンファー距離関数の強化について検討する。
経験的に、この単純な拡張は、多ベクトル表現を固定しながらトークンウェイトなトレーニングのみを必要とすることを示し、遅延相互作用の多ベクトル機構の表現性をさらに向上させる。
特に, BEIR ベンチマークでは, IDF を用いたゼロショット設定では Recall@10 が平均 1.28 % 向上し, 少数ショットの微調整により 3.66 % 向上した。
関連論文リスト
- SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Rethinking the Role of Token Retrieval in Multi-Vector Retrieval [22.508682857329912]
ColBERT (Khattab and Zaharia, 2020) のようなマルチベクトル検索モデルは、クエリとドキュメント間のトークンレベルの相互作用を可能にする。
提案するXTR, ConteXtualized Token Retrieverは, 単純かつ斬新で客観的な関数を導入し, まず最も重要な文書トークンを検索する。
論文 参考訳(メタデータ) (2023-04-04T17:37:06Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。