論文の概要: SPLATE: Sparse Late Interaction Retrieval
- arxiv url: http://arxiv.org/abs/2404.13950v1
- Date: Mon, 22 Apr 2024 07:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 01:58:24.861726
- Title: SPLATE: Sparse Late Interaction Retrieval
- Title(参考訳): SPLATE: Sparse Late Interaction Retrieval
- Authors: Thibault Formal, Stéphane Clinchant, Hervé Déjean, Carlos Lassance,
- Abstract要約: SPLATEは、MLMアダプタを学習するColBERTv2モデルの軽量化である。
パイプラインはPLAID ColBERTv2エンジンと同じ効率を10ms以下で検索可能な50の文書を再ランク付けすることで実現している。
- 参考スコア(独自算出の注目度): 13.607085390630647
- License:
- Abstract: The late interaction paradigm introduced with ColBERT stands out in the neural Information Retrieval space, offering a compelling effectiveness-efficiency trade-off across many benchmarks. Efficient late interaction retrieval is based on an optimized multi-step strategy, where an approximate search first identifies a set of candidate documents to re-rank exactly. In this work, we introduce SPLATE, a simple and lightweight adaptation of the ColBERTv2 model which learns an ``MLM adapter'', mapping its frozen token embeddings to a sparse vocabulary space with a partially learned SPLADE module. This allows us to perform the candidate generation step in late interaction pipelines with traditional sparse retrieval techniques, making it particularly appealing for running ColBERT in CPU environments. Our SPLATE ColBERTv2 pipeline achieves the same effectiveness as the PLAID ColBERTv2 engine by re-ranking 50 documents that can be retrieved under 10ms.
- Abstract(参考訳): ColBERTで導入された後期のインタラクションパラダイムは、神経情報検索の分野で際立っている。
効率のよい遅延相互作用検索は、最適化された多段階戦略に基づいており、近似探索はまず候補文書の集合を特定して正確に再ランクする。
本研究では,ColBERTv2モデルのシンプルで軽量な適応であるSPLATEを導入し,'MLMアダプタ'を学習し,その凍結トークンの埋め込みを部分的に学習したSPLADEモジュールでスパース語彙空間にマッピングする。
これにより、従来のスパース検索技術で遅延相互作用パイプラインの候補生成ステップを実行することができ、CPU環境でのColBERTの実行に特に魅力があります。
SPLATE ColBERTv2 パイプラインは 10ms で検索可能な 50 個の文書を再ランク付けすることで PLAID ColBERTv2 エンジンと同じ効率を達成する。
関連論文リスト
- Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever [6.221757399678299]
ColBERTの遅延相互作用評価は、クロスエンコーダに見られる共同クエリ文書の注意を近似する。
我々の新しいモデルであるJina-ColBERT-v2は、英語および多言語検索タスクで高い性能を示す。
論文 参考訳(メタデータ) (2024-08-29T16:21:00Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Beyond Two-Tower Matching: Learning Sparse Retrievable
Cross-Interactions for Recommendation [80.19762472699814]
2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。
機能間相互作用の制限と、オンラインサービスにおける精度の低下など、主な課題が2つある。
我々は,高度な機能相互作用だけでなく,効率的な検索もサポートするSparCodeという新しいマッチングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-30T03:13:36Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Introducing Neural Bag of Whole-Words with ColBERTer: Contextualized
Late Interactions using Enhanced Reduction [10.749746283569847]
ColBERTerは、文脈化された遅延相互作用(ColBERT)と強化されたリダクションを用いたニューラル検索モデルである。
マルチベクタコンポーネントのために、ColBERTerは、各ドキュメントの用語に対するユニークな全ワード表現を学習することで、ドキュメントごとの格納数を減らす。
MS MARCOとTREC-DLのコレクションの結果から、ColBERTerは最大2.5倍のストレージフットプリントを削減できるが、有効性は維持できる。
論文 参考訳(メタデータ) (2022-03-24T14:28:07Z) - ColBERTv2: Effective and Efficient Retrieval via Lightweight Late
Interaction [15.336103841957328]
ColBERTv2は、攻撃的な残留圧縮機構と識別された監視戦略を結合するレトリバーである。
ColBERTv2をさまざまなベンチマークで評価し,トレーニング領域内外における最先端の品質を確立した。
論文 参考訳(メタデータ) (2021-12-02T18:38:50Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - ColBERT: Efficient and Effective Passage Search via Contextualized Late
Interaction over BERT [24.288824715337483]
ColBERTは、ディープLMを効率的な検索に適応させる新しいランキングモデルである。
我々は最近の2つの経路探索データセットを用いてColBERTを広範囲に評価した。
論文 参考訳(メタデータ) (2020-04-27T14:21:03Z) - TwinBERT: Distilling Knowledge to Twin-Structured BERT Models for
Efficient Retrieval [11.923682816611716]
本稿では,効率的な検索のためのTwinBERTモデルを提案する。
クエリとドキュメントをそれぞれ表現するBERTライクなエンコーダがツイン構造化されている。
ドキュメントの埋め込みはオフラインでプリコンパイルされ、メモリにキャッシュされる。
論文 参考訳(メタデータ) (2020-02-14T22:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。