論文の概要: Efficient Retrieval with Learned Similarities
- arxiv url: http://arxiv.org/abs/2407.15462v2
- Date: Wed, 14 Aug 2024 00:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 17:26:11.315526
- Title: Efficient Retrieval with Learned Similarities
- Title(参考訳): 学習類似性を考慮した効率的な検索法
- Authors: Bailu Ding, Jiaqi Zhai,
- Abstract要約: 最先端の検索アルゴリズムは、学習された類似点に移行した。
筆者らは,Mixture-of-Logits (MoL) が普遍近似であり,学習された類似度関数を全て表現できることを示した。
MoLはレコメンデーション検索タスクに新たな最先端結果を設定し、学習した類似性を持つ近似トップk検索は、最大2桁のレイテンシでベースラインを上回ります。
- 参考スコア(独自算出の注目度): 2.729516456192901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval plays a fundamental role in recommendation systems, search, and natural language processing by efficiently finding relevant items from a large corpus given a query. Dot products have been widely used as the similarity function in such retrieval tasks, thanks to Maximum Inner Product Search (MIPS) that enabled efficient retrieval based on dot products. However, state-of-the-art retrieval algorithms have migrated to learned similarities. Such algorithms vary in form; the queries can be represented with multiple embeddings, complex neural networks can be deployed, the item ids can be decoded directly from queries using beam search, and multiple approaches can be combined in hybrid solutions. Unfortunately, we lack efficient solutions for retrieval in these state-of-the-art setups. Our work investigates techniques for approximate nearest neighbor search with learned similarity functions. We first prove that Mixture-of-Logits (MoL) is a universal approximator, and can express all learned similarity functions. We next propose techniques to retrieve the approximate top K results using MoL with a tight bound. We finally compare our techniques with existing approaches, showing that MoL sets new state-of-the-art results on recommendation retrieval tasks, and our approximate top-k retrieval with learned similarities outperforms baselines by up to two orders of magnitude in latency, while achieving > .99 recall rate of exact algorithms.
- Abstract(参考訳): Retrievalはリコメンデーションシステム、検索、自然言語処理において、クエリが与えられた大きなコーパスから関連項目を効率的に見つけることによって、基本的な役割を担っている。
ドット製品に基づく効率的な検索を可能にするMIPS(Maximum Inner Product Search)のおかげで、ドット製品はこのような検索タスクにおける類似機能として広く利用されている。
しかし、最先端の検索アルゴリズムは、学習した類似点に移行した。
クエリは複数の埋め込みで表現でき、複雑なニューラルネットワークをデプロイでき、アイテムIDはビームサーチを使用してクエリから直接デコードでき、複数のアプローチをハイブリッドソリューションで組み合わせることができる。
残念なことに、これらの最先端のセットアップでは、検索のための効率的なソリューションが欠如しています。
本研究は,学習類似度関数を用いた近接探索手法について検討する。
最初に、Mixture-of-Logits (MoL) が普遍近似であり、学習されたすべての類似性関数を表現できることを証明した。
次に, タイトな境界を持つMoLを用いて, 近似トップK値を求める手法を提案する。
提案手法を既存の手法と比較し,MoLが推薦検索タスクに新たな最先端結果を設定することを示し,学習類似性を持つ近似トップk検索は,精度の高いアルゴリズムの.99リコール率を達成しつつ,最大2桁のレイテンシでベースラインを上回った。
関連論文リスト
- pEBR: A Probabilistic Approach to Embedding Based Retrieval [4.8338111302871525]
埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Revisiting Neural Retrieval on Accelerators [20.415728886298915]
検索の重要な構成要素は、(ユーザ、アイテム)類似性をモデル化することである。
その人気にもかかわらず、ドット製品は多面的であり、おそらく高いランクにある複雑なユーザとイテムのインタラクションをキャプチャすることはできない。
本稿では,基本類似度関数の適応的構成として,ユーザ,アイテムの類似度をモデル化したロジットのテキストミックス(MoL)を提案する。
論文 参考訳(メタデータ) (2023-06-06T22:08:42Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Approximate Nearest Neighbor Search under Neural Similarity Metric for
Large-Scale Recommendation [20.42993976179691]
本稿では,任意のマッチング関数にANN探索を拡張する新しい手法を提案する。
我々の主な考えは、すべての項目から構築された類似性グラフに一致する関数で、欲張りのウォークを実行することである。
提案手法は,Taobaoのディスプレイ広告プラットフォームに完全に展開されており,広告収入の大幅な増加をもたらす。
論文 参考訳(メタデータ) (2022-02-14T07:55:57Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。