論文の概要: pEBR: A Probabilistic Approach to Embedding Based Retrieval
- arxiv url: http://arxiv.org/abs/2410.19349v1
- Date: Fri, 25 Oct 2024 07:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:58.332651
- Title: pEBR: A Probabilistic Approach to Embedding Based Retrieval
- Title(参考訳): pEBR: 埋め込みベースの検索に対する確率論的アプローチ
- Authors: Han Zhang, Yunjing Jiang, Mingming Li, Haowei Yuan, Wen-Yun Yang,
- Abstract要約: 埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
- 参考スコア(独自算出の注目度): 4.8338111302871525
- License:
- Abstract: Embedding retrieval aims to learn a shared semantic representation space for both queries and items, thus enabling efficient and effective item retrieval using approximate nearest neighbor (ANN) algorithms. In current industrial practice, retrieval systems typically retrieve a fixed number of items for different queries, which actually leads to insufficient retrieval (low recall) for head queries and irrelevant retrieval (low precision) for tail queries. Mostly due to the trend of frequentist approach to loss function designs, till now there is no satisfactory solution to holistically address this challenge in the industry. In this paper, we move away from the frequentist approach, and take a novel \textbf{p}robabilistic approach to \textbf{e}mbedding \textbf{b}ased \textbf{r}etrieval (namely \textbf{pEBR}) by learning the item distribution for different queries, which enables a dynamic cosine similarity threshold calculated by the probabilistic cumulative distribution function (CDF) value. The experimental results show that our approach improves both the retrieval precision and recall significantly. Ablation studies also illustrate how the probabilistic approach is able to capture the differences between head and tail queries.
- Abstract(参考訳): 埋め込み検索は、クエリとアイテムの両方の共有意味表現空間を学習することを目的としており、ニアニア(ANN)アルゴリズムを用いて、効率的で効果的なアイテム検索を可能にする。
現在の産業では、検索システムは一般的に異なるクエリに対して一定数のアイテムを検索するが、これは実際にヘッドクエリに対する不十分な検索(低リコール)とテールクエリに対する無関係な検索(低精度)につながる。
主に、損失関数設計に対する頻繁なアプローチの傾向のため、これまで業界におけるこの課題に全体的に取り組むための満足のいく解決策は存在しなかった。
本稿では、頻繁なアプローチから脱却し、確率的累積分布関数(CDF)値によって計算された動的コサイン類似度閾値を実現するために、異なるクエリの項目分布を学習することで、新しい \textbf{p}robabilistic approach to \textbf{e}mbedding \textbf{b}ased \textbf{r}etrieval (別名 \textbf{pEBR}) を取り出す。
実験結果から,本手法は検索精度とリコール精度を大幅に向上することが示された。
アブレーション研究はまた、確率論的アプローチが頭と尾のクエリの違いを捉えることができることを示す。
関連論文リスト
- Posets and Bounded Probabilities for Discovering Order-inducing Features in Event Knowledge Graphs [6.96958458974878]
イベント知識グラフ(EKG)は、プロセス実行の複数の対話的なビューをキャプチャする。
未処理データからのEKG発見のオープンな問題に対処する。
統計的推測に基づくEKG探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-10-08T14:12:51Z) - Efficient Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
筆者らは,Mixture-of-Logits (MoL) が普遍近似であり,学習された類似度関数を全て表現できることを示した。
MoLはレコメンデーション検索タスクに新たな最先端結果を設定し、学習した類似性を持つ近似トップk検索は、最大2桁のレイテンシでベースラインを上回ります。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。
提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文 参考訳(メタデータ) (2022-01-05T13:37:27Z) - APRF-Net: Attentive Pseudo-Relevance Feedback Network for Query
Categorization [12.634704014206294]
クエリ分類のためのレアクエリの表現を強化するために,textbfAttentive textbfPseudo textbfRelevance textbfFeedback textbfNetwork (APRF-Net) という新しいディープニューラルネットワークを提案する。
以上の結果から,APRF-Netはクエリ分類をF1@1$スコアで5.9%改善し,レアクエリでは8.2%向上した。
論文 参考訳(メタデータ) (2021-04-23T02:34:08Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z) - Probability Weighted Compact Feature for Domain Adaptive Retrieval [19.104542395011922]
ドメイン適応画像検索は、単一ドメイン検索とクロスドメイン検索を含む。
既存の画像検索手法の多くは単一領域検索にのみ焦点をあてている。
本稿では,ドメイン間の検索に挑戦することに焦点を当てる。
論文 参考訳(メタデータ) (2020-03-06T16:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。