論文の概要: Retrieval with Learned Similarities
- arxiv url: http://arxiv.org/abs/2407.15462v3
- Date: Wed, 20 Nov 2024 18:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:47.452612
- Title: Retrieval with Learned Similarities
- Title(参考訳): 類似点の学習による検索
- Authors: Bailu Ding, Jiaqi Zhai,
- Abstract要約: 最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 2.729516456192901
- License:
- Abstract: Retrieval plays a fundamental role in recommendation systems, search, and natural language processing (NLP) by efficiently finding relevant items from a large corpus given a query. Dot products have been widely used as the similarity function in such tasks, enabled by Maximum Inner Product Search (MIPS) algorithms for efficient retrieval. However, state-of-the-art retrieval algorithms have migrated to learned similarities. These advanced approaches encompass multiple query embeddings, complex neural networks, direct item ID decoding via beam search, and hybrid solutions. Unfortunately, we lack efficient solutions for retrieval in these state-of-the-art setups. Our work addresses this gap by investigating efficient retrieval techniques with expressive learned similarity functions. We establish Mixture-of-Logits (MoL) as a universal approximator of similarity functions, demonstrate that MoL's expressiveness can be realized empirically to achieve superior performance on diverse retrieval scenarios, and propose techniques to retrieve the approximate top-k results using MoL with tight error bounds. Through extensive experimentation, we show that MoL, enhanced by our proposed mutual information-based load balancing loss, sets new state-of-the-art results across heterogeneous scenarios, including sequential retrieval models in recommendation systems and finetuning language models for question answering; and our approximate top-$k$ algorithms outperform baselines by up to 66x in latency while achieving >.99 recall rate compared to exact algorithms.
- Abstract(参考訳): Retrievalは、クエリが与えられた大きなコーパスから関連項目を効率的に見つけることによって、レコメンデーションシステム、検索、自然言語処理(NLP)において基本的な役割を果たす。
ドット製品はそのようなタスクにおける類似性関数として広く使われており、効率的な検索のために最大内部製品探索(MIPS)アルゴリズムによって実現されている。
しかし、最先端の検索アルゴリズムは、学習した類似点に移行した。
これらの高度なアプローチには、複数のクエリ埋め込み、複雑なニューラルネットワーク、ビームサーチによるダイレクトアイテムIDデコード、ハイブリッドソリューションが含まれる。
残念なことに、これらの最先端のセットアップでは、検索のための効率的なソリューションが欠如しています。
本研究は,表現的学習類似度関数を用いた効率的な検索手法を探索することにより,このギャップに対処する。
類似関数の普遍近似としてMixture-of-Logits (MoL) を確立し,MoLの表現性を実証的に実現し,多種多様な検索シナリオにおいて優れた性能が得られることを示す。
提案した相互情報に基づくロードバランシング損失によって強化されたMoLは、推薦システムにおける逐次検索モデルや質問応答のための微調整言語モデルを含む異種シナリオにまたがる新たな技術結果を設定する。
関連論文リスト
- pEBR: A Probabilistic Approach to Embedding Based Retrieval [4.8338111302871525]
埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Approximate Nearest Neighbor Search under Neural Similarity Metric for
Large-Scale Recommendation [20.42993976179691]
本稿では,任意のマッチング関数にANN探索を拡張する新しい手法を提案する。
我々の主な考えは、すべての項目から構築された類似性グラフに一致する関数で、欲張りのウォークを実行することである。
提案手法は,Taobaoのディスプレイ広告プラットフォームに完全に展開されており,広告収入の大幅な増加をもたらす。
論文 参考訳(メタデータ) (2022-02-14T07:55:57Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。