論文の概要: Composite Code Sparse Autoencoders for first stage retrieval
- arxiv url: http://arxiv.org/abs/2204.07023v1
- Date: Thu, 14 Apr 2022 15:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 14:02:21.572103
- Title: Composite Code Sparse Autoencoders for first stage retrieval
- Title(参考訳): 合成コードスパースオートエンコーダによる第1段階検索
- Authors: Carlos Lassance, Thibault Formal, Stephane Clinchant
- Abstract要約: 本稿では,文書表現の近似的ニアネバー (ANN) 探索のための複合コードスパースオートエンコーダ (CCSA) アプローチを提案する。
まず、正則化器により、CCSAが効率よく並列反転インデックスの均一性を学習できることを示す。
MSMARCOデータセットを用いた実験の結果,CCSAはIVFよりも製品量子化に優れていた。
- 参考スコア(独自算出の注目度): 6.995016229019332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Composite Code Sparse Autoencoder (CCSA) approach for
Approximate Nearest Neighbor (ANN) search of document representations based on
Siamese-BERT models. In Information Retrieval (IR), the ranking pipeline is
generally decomposed in two stages: the first stage focus on retrieving a
candidate set from the whole collection. The second stage re-ranks the
candidate set by relying on more complex models. Recently, Siamese-BERT models
have been used as first stage ranker to replace or complement the traditional
bag-of-word models. However, indexing and searching a large document collection
require efficient similarity search on dense vectors and this is why ANN
techniques come into play. Since composite codes are naturally sparse, we first
show how CCSA can learn efficient parallel inverted index thanks to an
uniformity regularizer. Second, CCSA can be used as a binary quantization
method and we propose to combine it with the recent graph based ANN techniques.
Our experiments on MSMARCO dataset reveal that CCSA outperforms IVF with
product quantization. Furthermore, CCSA binary quantization is beneficial for
the index size, and memory usage for the graph-based HNSW method, while
maintaining a good level of recall and MRR. Third, we compare with recent
supervised quantization methods for image retrieval and find that CCSA is able
to outperform them.
- Abstract(参考訳): そこで我々は,Syamese-BERTモデルに基づく文書表現の近似Nearest Neighbor (ANN)探索のための複合コードスパースオートエンコーダ (CCSA) アプローチを提案する。
情報検索(IR)では、ランキングパイプラインは一般的に2つの段階に分けられる。
第2段階は、より複雑なモデルに依存して候補集合を再ランクする。
近年、シャムズ・バートモデルは、伝統的な単語のバッグ・オブ・ワードのモデルを置き換えるか補完するために第1段階のランク付け器として用いられてきた。
しかし、大規模な文書コレクションのインデックス化と検索には、高密度ベクトルの効率的な類似性探索が必要である。
合成符号は自然にスパースであるため,一様正則化によりCCSAが効率よく並列反転指数を学習できることを示す。
次に,ccsaを2進量子化法として利用し,最近のグラフベースのann手法と組み合わせることを提案する。
MSMARCOデータセットを用いた実験の結果,CCSAはIVFよりも製品量子化に優れていた。
さらに、CCSAバイナリ量子化は、高いレベルのリコールとMRRを維持しながら、インデックスサイズとグラフベースのHNSW法のメモリ使用量に有益である。
第3に、画像検索の教師付き量子化手法と比較し、CCSAがそれらを上回っていることを示す。
関連論文リスト
- Early Exit Strategies for Approximate k-NN Search in Dense Retrieval [10.48678957367324]
アーリーエグジットのための最先端のA-kNNを構築し,忍耐の概念に基づく教師なし手法を提案する。
我々は,A-kNNの効率を最大5倍の高速化で向上すると同時に,無視可能な効率損失を達成できることを示す。
論文 参考訳(メタデータ) (2024-08-09T10:17:07Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Efficient Cross-Modal Retrieval via Deep Binary Hashing and Quantization [5.799838997511804]
クロスモーダル検索は、異なるコンテンツモダリティにまたがる類似の意味を持つデータを検索することを目的としている。
クロスモーダル検索のための共同学習型ディープハッシュ・量子化ネットワーク(HQ)を提案する。
NUS-WIDE、MIR-Flickr、Amazonデータセットの実験結果は、HQの精度が7%以上向上していることを示している。
論文 参考訳(メタデータ) (2022-02-15T22:00:04Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。