論文の概要: A Replicability Study of XTR
- arxiv url: http://arxiv.org/abs/2605.00646v1
- Date: Fri, 01 May 2026 13:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.966345
- Title: A Replicability Study of XTR
- Title(参考訳): XTRの再現性に関する研究
- Authors: Rohan Jha, Reno Kriz, Benjamin Van Durme,
- Abstract要約: 元々の研究では、効率的なXTR検索に必要な修正されたトレーニング目標が提案されている。
我々は,XTR検索アルゴリズムとその改良された学習目標を再現し,その評価を知識蒸留訓練と効率的な検索エンジンに拡張する。
- 参考スコア(独自算出の注目度): 49.02573032242219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The XTR (conteXtual Token Retrieval) algorithm is a modification to ColBERT retrieval that avoids the costly step of fully gathering and reranking the candidates' embeddings by imputing their missing similarity scores from the initial token retrieval step. The original work proposes a modified training objective as necessary for effective XTR retrieval, arguing that standard ColBERT token scoring is unsuitable for imputation. In this paper, we replicate both the XTR retrieval algorithm and its modified training objective, and extend the evaluation to knowledge-distillation (KD) training and efficient retrieval engines (PLAID and WARP). We confirm the token-level matching characteristics claimed in the original work, but fail to replicate XTR's overall effectiveness advantage over ColBERT under a controlled comparison. We further show that XTR's training modification has a concrete mechanistic consequence for modern retrieval engines: by flattening ColBERT's characteristically peaked token score distribution, XTR training yields more discriminative centroid scores and thus more efficient IVF-based retrieval under PLAID and WARP. The utility of XTR training is therefore not limited to the low-$k'$ regime originally studied, but extends to any deployment setting where IVF-based engines are used. These findings offer practitioners concrete guidance on how and when to use XTR as their multi-vector retriever.
- Abstract(参考訳): XTR (conteXtual Token Retrieval) アルゴリズムはColBERT検索の修正であり、初期トークン検索ステップから欠落した類似点を出力することにより、候補の埋め込みを完全収集し、再ランクするコストのかかるステップを回避する。
オリジナルの研究は、有効なXTR検索に必要な修正されたトレーニング目標を提案し、標準のColBERTトークンスコアリングは計算に適さないと主張した。
本稿では,XTR検索アルゴリズムと改良された学習目標の両方を再現し,知識蒸留(KD)訓練と効率的な検索エンジン(PLAID,WARP)に拡張する。
原著論文で主張されているトークンレベルの整合性は確認するが,制御された比較条件下では,XTRのColBERTに対する全体的な効果の優位性を再現することができない。
さらに、XTRのトレーニング修正は、ColBERTの特徴的なピーク値のスコア分布を平坦化することにより、より差別的なセントロイドスコアが得られ、PLAIDとWARPによるより効率的なIVFベースの検索が可能になることを示します。
そのため、XTRトレーニングの実用性は、当初研究されていた低k'$レギュラーに限らず、IVFベースのエンジンが使用される任意の配置設定にまで拡張されている。
これらの知見は、XTRをマルチベクターレトリバーとして使用する方法と時期に関する具体的なガイダンスを提供する。
関連論文リスト
- Beyond Hungarian: Match-Free Supervision for End-to-End Object Detection [6.786987355161583]
提案手法は,DETRを用いた新しい整合性学習手法である。
我々は、符号化された地下構造情報を用いて、クロスアテンション機構を通じてデコーダクエリを探索する。
実験により,提案手法は従来のマッチング処理をバイパスすることを示した。
論文 参考訳(メタデータ) (2026-03-09T15:44:23Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - WARP: An Efficient Engine for Multi-Vector Retrieval [42.128201454569165]
WARPは、XTR目標で訓練された検索者の効率を大幅に改善する検索エンジンである。
本システムでは,XTRの参照実装を41倍に削減し,ColBERTv2/PLAIDエンジンの3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-01-29T17:26:47Z) - Rank-DETR for High Quality Object Detection [52.82810762221516]
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。
本研究では, 簡易かつ高性能なDETR型物体検出器について, 一連のランク指向設計を提案して紹介する。
論文 参考訳(メタデータ) (2023-10-13T04:48:32Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。