論文の概要: Vector search with small radiuses
- arxiv url: http://arxiv.org/abs/2403.10746v1
- Date: Sat, 16 Mar 2024 00:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:04:53.137088
- Title: Vector search with small radiuses
- Title(参考訳): 小半径ベクトル探索
- Authors: Gergely Szilvasy, Pierre-Emmanuel Mazaré, Matthijs Douze,
- Abstract要約: 本稿では,ベクトル検索結果に応じて難しい決定を下す必要がある場合に着目する。
本研究では,クエリー・ツー・ベクター距離に基づいて,範囲探索結果の値を厳密にモデル化できることを示す。
これにより、範囲探索の指標 RSM が得られ、これは原則的であり、エンドツーエンドの評価を行なわずに計算が容易である。
- 参考スコア(独自算出の注目度): 10.880913075221361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the dominant accuracy metric for vector search is the recall of a result list of fixed size (top-k retrieval), considering as ground truth the exact vector retrieval results. Although convenient to compute, this metric is distantly related to the end-to-end accuracy of a full system that integrates vector search. In this paper we focus on the common case where a hard decision needs to be taken depending on the vector retrieval results, for example, deciding whether a query image matches a database image or not. We solve this as a range search task, where all vectors within a certain radius from the query are returned. We show that the value of a range search result can be modeled rigorously based on the query-to-vector distance. This yields a metric for range search, RSM, that is both principled and easy to compute without running an end-to-end evaluation. We apply this metric to the case of image retrieval. We show that indexing methods that are adapted for top-k retrieval do not necessarily maximize the RSM. In particular, for inverted file based indexes, we show that visiting a limited set of clusters and encoding vectors compactly yields near optimal results.
- Abstract(参考訳): 近年, ベクトル探索の精度は, 正確なベクトル検索結果を基底事実として考慮して, 固定サイズ(トップk検索)の結果リストのリコールが主流となっている。
計算には便利だが、この計量はベクトル探索を統合する完全系のエンドツーエンドの精度と遠縁である。
本稿では,例えば,クエリ画像がデータベース画像と一致するか否かを判断するなど,ベクトル検索結果によって決定が難しい場合に焦点をあてる。
我々はこれを範囲探索タスクとして解決し、クエリから特定の半径内にある全てのベクトルが返される。
本研究では,クエリー・ツー・ベクター距離に基づいて,範囲探索結果の値を厳密にモデル化できることを示す。
これにより、範囲探索の指標 RSM が得られ、これは原則的であり、エンドツーエンドの評価を行なわずに計算が容易である。
本稿では,この指標を画像検索に適用する。
トップk検索に適応した索引付け手法が必ずしも RSM を最大化しないことを示す。
特に、逆ファイルベースインデックスの場合、限られたクラスタを訪問し、ベクトルを符号化することで、最適に近い結果が得られることを示す。
関連論文リスト
- Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Efficient Data Access Paths for Mixed Vector-Relational Search [8.80592433569832]
機械学習とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理のためのシステム構築に大きな関心を喚起した。
ベクトルデータ管理の主流のアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリはリレーショナル属性に対して選択的になる。
ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
論文 参考訳(メタデータ) (2024-03-23T11:34:17Z) - Locally-Adaptive Quantization for Streaming Vector Search [1.151101202055732]
高効率ベクトル圧縮法であるLocally-Adaptive Vector Quantization (LVQ)は、非進化データベースに対して最先端の探索性能を得る。
LVQの2つの改善点として,Turbo LVQとMulti-means LVQを導入し,検索性能を28%,27%向上させた。
我々の研究は、LVQとその新しい変種が高速ベクトル探索を可能にし、同じ分散データに対して、最も近い競合である9.4倍の性能を発揮することを示した。
論文 参考訳(メタデータ) (2024-02-03T05:43:39Z) - LeanVec: Searching vectors faster by making them fit [1.0863382547662974]
本稿では,高次元ベクトル上での類似性探索を高速化するために,線形次元減少とベクトル量子化を組み合わせたフレームワークLeanVecを提案する。
LeanVecは、検索のスループットを最大3.7倍改善し、インデックスビルド時間を最大4.9倍高速化する、最先端の結果を生成する。
論文 参考訳(メタデータ) (2023-12-26T21:14:59Z) - Group Testing for Accurate and Efficient Range-Based Near Neighbor
Search : An Adaptive Binary Splitting Approach [2.6764607949560593]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。
提案手法は, 網羅探索と同一の精度で10以上の係数で, 網羅探索を高速化することを示す。
論文 参考訳(メタデータ) (2023-11-05T06:12:03Z) - Efficient k-NN Search with Cross-Encoders using Adaptive Multi-Round CUR
Decomposition [77.4863142882136]
クロスエンコーダモデルは、直接k-nearest neighbor(k-NN)サーチには不当に高価である。
本稿では,現実的に重要なトップk近傍の近似誤差を適応的に,反復的に,効率的に最小化するADACURを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:01:17Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - Surprise: Result List Truncation via Extreme Value Theory [92.5817701697342]
そこで本研究では,問合せ時における可逆的・校正的関連度スコアを,ランク付けされたスコアに留まらず,統計的に生成する手法を提案する。
本稿では、画像、テキスト、IRデータセット間での結果リストのトランケーションタスクにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2020-10-19T19:15:50Z) - A Practical Index Structure Supporting Fr\'echet Proximity Queries Among
Trajectories [1.9335262420787858]
我々は、計算コストの高いメトリクスの下で、レンジと近隣クエリに$k$のスケーラブルなアプローチを提案する。
計量指標のクラスタリングに基づいて,軌跡数に線形な木構造を求める。
本研究では,多種多様な合成および実世界のデータセットに関する広範な実験により,本手法の有効性と有効性について分析する。
論文 参考訳(メタデータ) (2020-05-28T04:12:43Z) - Choppy: Cut Transformer For Ranked List Truncation [92.58177016973421]
Choppyは、広く成功したTransformerアーキテクチャに基づいた仮説のないモデルである。
Choppyは最近の最先端の手法で改善されている。
論文 参考訳(メタデータ) (2020-04-26T00:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。