論文の概要: Progressively Optimized Bi-Granular Document Representation for Scalable
Embedding Based Retrieval
- arxiv url: http://arxiv.org/abs/2201.05409v1
- Date: Fri, 14 Jan 2022 12:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 18:39:27.634148
- Title: Progressively Optimized Bi-Granular Document Representation for Scalable
Embedding Based Retrieval
- Title(参考訳): 拡張的埋め込みに基づく検索のためのプログレッシブ最適化バイグラニュラー文書表現
- Authors: Shitao Xiao, Zheng Liu, Weihao Han, Jianjin Zhang, Chaozhuo Li,
Yingxia Shao, Defu Lian, Xing Xie, Hao Sun, Denvy Deng, Liangjie Zhang, Qi
Zhang
- Abstract要約: アドホック検索は、大規模なコーパスから適切な回答を選択することを要求する。
深層学習に基づく文書表現とANN検索技術がこの課題に対処するために連携している。
大きな課題は、ANNインデックスが大きすぎてメモリに収まらないことだ。
本研究では,この問題に対して,粗い候補探索のために,軽量なスパース埋め込みをインデックス化し,メモリ内で待機するバイグラニュラ文書表現を用いて対処する。
- 参考スコア(独自算出の注目度): 41.93637130875804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ad-hoc search calls for the selection of appropriate answers from a
massive-scale corpus. Nowadays, the embedding-based retrieval (EBR) becomes a
promising solution, where deep learning based document representation and ANN
search techniques are allied to handle this task. However, a major challenge is
that the ANN index can be too large to fit into memory, given the considerable
size of answer corpus. In this work, we tackle this problem with Bi-Granular
Document Representation, where the lightweight sparse embeddings are indexed
and standby in memory for coarse-grained candidate search, and the heavyweight
dense embeddings are hosted in disk for fine-grained post verification. For the
best of retrieval accuracy, a Progressive Optimization framework is designed.
The sparse embeddings are learned ahead for high-quality search of candidates.
Conditioned on the candidate distribution induced by the sparse embeddings, the
dense embeddings are continuously learned to optimize the discrimination of
ground-truth from the shortlisted candidates. Besides, two techniques: the
contrastive quantization and the locality-centric sampling are introduced for
the learning of sparse and dense embeddings, which substantially contribute to
their performances. Thanks to the above features, our method effectively
handles massive-scale EBR with strong advantages in accuracy: with up to +4.3%
recall gain on million-scale corpus, and up to +17.5% recall gain on
billion-scale corpus. Besides, Our method is applied to a major sponsored
search platform with substantial gains on revenue (+1.95%), Recall (+1.01%) and
CTR (+0.49%).
- Abstract(参考訳): アドホック検索は、大規模なコーパスから適切な回答を選択することを要求する。
近年,組込み型検索(EBR)が有望なソリューションとなり,ディープラーニングベースの文書表現とANN検索技術が連携してこの課題に対処している。
しかし、大きな課題は、回答コーパスの大きさを考えると、anインデックスがメモリに収まるには大きすぎる可能性があることである。
そこで本研究では, 粗い候補探索のために, 軽量なスパース埋め込みをインデックス化し, メモリ上に待機し, 重厚な密埋め込みをディスクにホストし, 詳細なポスト検証を行うBi-Granular Document Representationを用いてこの問題に対処する。
検索精度の良さから、プログレッシブ最適化フレームワークが設計されている。
まばらな埋め込みは、候補者の質の高い検索のために事前に学習される。
スパース埋め込みによって誘導される候補分布を条件に, 埋込み密度を連続的に学習し, 短絡した候補からの接地真実の識別を最適化する。
また, 正規化法と局所性中心サンプリング法という2つの手法が, ばらばらで密接な埋め込みの学習に導入され, その性能に大きく寄与している。
以上の特徴により,本手法は,大規模コーパスにおいて最大4.3%のリコールゲイン,10億のコーパスで最大17.5%のリコールゲインを有する大規模ebrを効果的に処理する。
さらに,本手法は,収益(+1.95%),リコール(+1.01%),CTR(+0.49%)に大きく貢献する主要な検索プラットフォームに適用される。
関連論文リスト
- A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Binary Embedding-based Retrieval at Tencent [30.44247353560061]
大規模埋め込み型検索 (EBR) は, 検索関連産業アプリケーションの基礎となっている。
本稿では,2進二進化アルゴリズムを組み込んだ2進埋め込み型検索エンジンを提案する。
私たちは、導入したBEBRをSogou、Tencent Video、QQ Worldなど、Tencent製品にうまく採用しました。
論文 参考訳(メタデータ) (2023-02-17T06:10:02Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Approximate Nearest Neighbor Search under Neural Similarity Metric for
Large-Scale Recommendation [20.42993976179691]
本稿では,任意のマッチング関数にANN探索を拡張する新しい手法を提案する。
我々の主な考えは、すべての項目から構築された類似性グラフに一致する関数で、欲張りのウォークを実行することである。
提案手法は,Taobaoのディスプレイ広告プラットフォームに完全に展開されており,広告収入の大幅な増加をもたらす。
論文 参考訳(メタデータ) (2022-02-14T07:55:57Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。