論文の概要: pEBR: A Probabilistic Approach to Embedding Based Retrieval
- arxiv url: http://arxiv.org/abs/2410.19349v3
- Date: Sat, 11 Oct 2025 01:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:07.961025
- Title: pEBR: A Probabilistic Approach to Embedding Based Retrieval
- Title(参考訳): pEBR: 埋め込みベースの検索に対する確率論的アプローチ
- Authors: Han Zhang, Yunjiang Jiang, Mingming Li, Haowei Yuan, Yiming Qiu, Wen-Yun Yang,
- Abstract要約: 埋め込みベースの検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
我々は,textbfprobabilistic textbfEmbedding-textbfBased textbfRetrieval (textbfpEBR) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.186585413958769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding-based retrieval aims to learn a shared semantic representation space for both queries and items, enabling efficient and effective item retrieval through approximate nearest neighbor (ANN) algorithms. In current industrial practice, retrieval systems typically retrieve a fixed number of items for each query. However, this fixed-size retrieval often results in insufficient recall for head queries and low precision for tail queries. This limitation largely stems from the dominance of frequentist approaches in loss function design, which fail to address this challenge in industry. In this paper, we propose a novel \textbf{p}robabilistic \textbf{E}mbedding-\textbf{B}ased \textbf{R}etrieval (\textbf{pEBR}) framework. Our method models the item distribution conditioned on each query, enabling the use of a dynamic cosine similarity threshold derived from the cumulative distribution function (CDF) of the probabilistic model. Experimental results demonstrate that pEBR significantly improves both retrieval precision and recall. Furthermore, ablation studies reveal that the probabilistic formulation effectively captures the inherent differences between head-to-tail queries.
- Abstract(参考訳): 埋め込み型検索は、クエリとアイテムの両方の共有意味表現空間を学習することを目的としており、ほぼ近接した(ANN)アルゴリズムにより、効率的かつ効果的なアイテム検索を可能にする。
現在の産業実践では、検索システムは典型的にはクエリ毎に一定数のアイテムを検索する。
しかし、この固定サイズ検索は、しばしばヘッドクエリのリコールが不十分で、テールクエリの低精度をもたらす。
この制限は、損失関数設計における頻繁なアプローチの優位性に大きく起因している。
本稿では,新しい textbf{p}robabilistic \textbf{E}mbedding-\textbf{B}ased \textbf{R}etrieval (\textbf{pEBR}) フレームワークを提案する。
提案手法は,各クエリに条件付きアイテム分布をモデル化し,確率モデルの累積分布関数(CDF)から導出される動的コサイン類似度閾値の利用を可能にする。
実験の結果,pEBRは検索精度とリコール精度の両方を著しく向上させることがわかった。
さらに、アブレーション研究により、確率的定式化(probabilistic formulation)は、ヘッド・ツー・テールクエリの固有の差異を効果的に捉えていることが明らかとなった。
関連論文リスト
- Posets and Bounded Probabilities for Discovering Order-inducing Features in Event Knowledge Graphs [6.96958458974878]
イベント知識グラフ(EKG)は、プロセス実行の複数の対話的なビューをキャプチャする。
未処理データからのEKG発見のオープンな問題に対処する。
統計的推測に基づくEKG探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-10-08T14:12:51Z) - Relevance Filtering for Embedding-based Retrieval [46.851594313019895]
埋め込み型検索では、ANN(Approximate Nearest Neighbor)検索により、大規模データセットから類似したアイテムを効率的に検索することができる。
本稿では,この課題に対処するために,埋め込み型検索のための新しい関連フィルタリングコンポーネント("Cosine Adapter" と呼ぶ)を提案する。
少ないリコールの損失を犠牲にして、回収したセットの精度を大幅に向上することが可能です。
論文 参考訳(メタデータ) (2024-08-09T06:21:20Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。
提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文 参考訳(メタデータ) (2022-01-05T13:37:27Z) - APRF-Net: Attentive Pseudo-Relevance Feedback Network for Query
Categorization [12.634704014206294]
クエリ分類のためのレアクエリの表現を強化するために,textbfAttentive textbfPseudo textbfRelevance textbfFeedback textbfNetwork (APRF-Net) という新しいディープニューラルネットワークを提案する。
以上の結果から,APRF-Netはクエリ分類をF1@1$スコアで5.9%改善し,レアクエリでは8.2%向上した。
論文 参考訳(メタデータ) (2021-04-23T02:34:08Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。