論文の概要: pEBR: A Probabilistic Approach to Embedding Based Retrieval
- arxiv url: http://arxiv.org/abs/2410.19349v1
- Date: Fri, 25 Oct 2024 07:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:58.332651
- Title: pEBR: A Probabilistic Approach to Embedding Based Retrieval
- Title(参考訳): pEBR: 埋め込みベースの検索に対する確率論的アプローチ
- Authors: Han Zhang, Yunjing Jiang, Mingming Li, Haowei Yuan, Wen-Yun Yang,
- Abstract要約: 埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
- 参考スコア(独自算出の注目度): 4.8338111302871525
- License:
- Abstract: Embedding retrieval aims to learn a shared semantic representation space for both queries and items, thus enabling efficient and effective item retrieval using approximate nearest neighbor (ANN) algorithms. In current industrial practice, retrieval systems typically retrieve a fixed number of items for different queries, which actually leads to insufficient retrieval (low recall) for head queries and irrelevant retrieval (low precision) for tail queries. Mostly due to the trend of frequentist approach to loss function designs, till now there is no satisfactory solution to holistically address this challenge in the industry. In this paper, we move away from the frequentist approach, and take a novel \textbf{p}robabilistic approach to \textbf{e}mbedding \textbf{b}ased \textbf{r}etrieval (namely \textbf{pEBR}) by learning the item distribution for different queries, which enables a dynamic cosine similarity threshold calculated by the probabilistic cumulative distribution function (CDF) value. The experimental results show that our approach improves both the retrieval precision and recall significantly. Ablation studies also illustrate how the probabilistic approach is able to capture the differences between head and tail queries.
- Abstract(参考訳): 埋め込み検索は、クエリとアイテムの両方の共有意味表現空間を学習することを目的としており、ニアニア(ANN)アルゴリズムを用いて、効率的で効果的なアイテム検索を可能にする。
現在の産業では、検索システムは一般的に異なるクエリに対して一定数のアイテムを検索するが、これは実際にヘッドクエリに対する不十分な検索(低リコール)とテールクエリに対する無関係な検索(低精度)につながる。
主に、損失関数設計に対する頻繁なアプローチの傾向のため、これまで業界におけるこの課題に全体的に取り組むための満足のいく解決策は存在しなかった。
本稿では、頻繁なアプローチから脱却し、確率的累積分布関数(CDF)値によって計算された動的コサイン類似度閾値を実現するために、異なるクエリの項目分布を学習することで、新しい \textbf{p}robabilistic approach to \textbf{e}mbedding \textbf{b}ased \textbf{r}etrieval (別名 \textbf{pEBR}) を取り出す。
実験結果から,本手法は検索精度とリコール精度を大幅に向上することが示された。
アブレーション研究はまた、確率論的アプローチが頭と尾のクエリの違いを捉えることができることを示す。
関連論文リスト
- Posets and Bounded Probabilities for Discovering Order-inducing Features in Event Knowledge Graphs [6.96958458974878]
イベント知識グラフ(EKG)は、プロセス実行の複数の対話的なビューをキャプチャする。
未処理データからのEKG発見のオープンな問題に対処する。
統計的推測に基づくEKG探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-10-08T14:12:51Z) - Relevance Filtering for Embedding-based Retrieval [46.851594313019895]
埋め込み型検索では、ANN(Approximate Nearest Neighbor)検索により、大規模データセットから類似したアイテムを効率的に検索することができる。
本稿では,この課題に対処するために,埋め込み型検索のための新しい関連フィルタリングコンポーネント("Cosine Adapter" と呼ぶ)を提案する。
少ないリコールの損失を犠牲にして、回収したセットの精度を大幅に向上することが可能です。
論文 参考訳(メタデータ) (2024-08-09T06:21:20Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。
提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文 参考訳(メタデータ) (2022-01-05T13:37:27Z) - APRF-Net: Attentive Pseudo-Relevance Feedback Network for Query
Categorization [12.634704014206294]
クエリ分類のためのレアクエリの表現を強化するために,textbfAttentive textbfPseudo textbfRelevance textbfFeedback textbfNetwork (APRF-Net) という新しいディープニューラルネットワークを提案する。
以上の結果から,APRF-Netはクエリ分類をF1@1$スコアで5.9%改善し,レアクエリでは8.2%向上した。
論文 参考訳(メタデータ) (2021-04-23T02:34:08Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。