論文の概要: Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval
- arxiv url: http://arxiv.org/abs/2205.11498v2
- Date: Wed, 19 Jul 2023 23:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 19:05:20.461285
- Title: Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval
- Title(参考訳): 効果的かつ効率的なゼロショット距離検索のための学習とハッシュによるドメイン適応注入
- Authors: Nandan Thakur, Nils Reimers, Jimmy Lin
- Abstract要約: 我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
- 参考スコア(独自算出の注目度): 49.98615945702959
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dense retrieval overcome the lexical gap and has shown great success in
ad-hoc information retrieval (IR). Despite their success, dense retrievers are
expensive to serve across practical use cases. For use cases requiring to
search from millions of documents, the dense index becomes bulky and requires
high memory usage for storing the index. More recently, learning-to-hash (LTH)
techniques, for e.g., BPR and JPQ, produce binary document vectors, thereby
reducing the memory requirement to efficiently store the dense index. LTH
techniques are supervised and finetune the retriever using a ranking loss. They
outperform their counterparts, i.e., traditional out-of-the-box vector
compression techniques such as PCA or PQ. A missing piece from prior work is
that existing techniques have been evaluated only in-domain, i.e., on a single
dataset such as MS MARCO. In our work, we evaluate LTH and vector compression
techniques for improving the downstream zero-shot retrieval accuracy of the
TAS-B dense retriever while maintaining efficiency at inference. Our results
demonstrate that, unlike prior work, LTH strategies when applied naively can
underperform the zero-shot TAS-B dense retriever on average by up to 14%
nDCG@10 on the BEIR benchmark. To solve this limitation, in our work, we
propose an easy yet effective solution of injecting domain adaptation with
existing supervised LTH techniques. We experiment with two well-known
unsupervised domain adaptation techniques: GenQ and GPL. Our domain adaptation
injection technique can improve the downstream zero-shot retrieval
effectiveness for both BPR and JPQ variants of the TAS-B model by on average
11.5% and 8.2% nDCG@10 while both maintaining 32$\times$ memory efficiency and
14$\times$ and 2$\times$ speedup respectively in CPU retrieval latency on BEIR.
All our code, models, and data are publicly available at
https://github.com/thakur-nandan/income.
- Abstract(参考訳): デンス検索は語彙的ギャップを克服し,アドホック情報検索(IR)において大きな成功を収めた。
その成功にもかかわらず、密集したレトリバーは実用的なユースケースにまたがって機能するのに高価である。
数百万のドキュメントから検索する必要のあるユースケースでは、高密度インデックスはばらばらになり、インデックスを格納するために高いメモリ使用量を必要とする。
最近では、例えばBPRやJPQのようなLTH(Learning-to-hash)技術がバイナリ文書ベクトルを生成して、高密度インデックスを効率的に保存するためのメモリ要求を低減している。
LTHテクニックを教師し、ランキングロスを使用してレトリバーを微調整する。
PCAやPQのような従来のアウト・オブ・ザ・ボックスのベクトル圧縮技術よりも優れている。
以前の研究で欠けているのは、既存の技術はドメイン内、すなわちMS MARCOのような単一のデータセットでのみ評価されていることである。
本研究では,TAS-B高密度レシーバの下流ゼロショット取得精度を向上させるためのLTHおよびベクトル圧縮技術の評価を行った。
その結果,先行研究と異なり,naiveが適用した場合のlth戦略は平均で14% ndcg@10 の非ショット tas-b 高密度レトリバーを過小評価できることがわかった。
この制限を解決するため、本研究では、既存のLTH技術を用いてドメイン適応を注入する容易かつ効果的な方法を提案する。
我々は、よく知られた教師なしドメイン適応技術であるGenQとGPLを実験した。
我々のドメイン適応インジェクション技術は、平均11.5%と8.2%のnDCG@10でTAS-BモデルのBPRおよびJPQモデルの下流ゼロショット検索効率を向上し、32$\times$メモリ効率と14$\times$と2$\times$メモリ効率をそれぞれBEIR上のCPU検索レイテンシで向上させることができる。
私たちのコード、モデル、データはすべて、https://github.com/thakur-nandan/incomeで公開されています。
関連論文リスト
- DeeperImpact: Optimizing Sparse Learned Index Structures [4.92919246305126]
我々は、SPLADEの最も効果的なバージョンと有効性ギャップを狭めることに重点を置いている。
その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
論文 参考訳(メタデータ) (2024-05-27T12:08:59Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Constructing Tree-based Index for Efficient and Effective Dense
Retrieval [26.706985694158384]
JTRは、TReeベースのインデックスとクエリエンコーディングの合同最適化の略である。
我々は、木に基づくインデックスとクエリエンコーダをエンドツーエンドにトレーニングするために、新しい統合されたコントラスト学習損失を設計する。
実験結果から,JTRは高いシステム効率を維持しつつ,検索性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-24T09:25:39Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。