Fugu-MT 論文翻訳(概要): Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering

論文の概要: Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering

arxiv url: http://arxiv.org/abs/2501.13442v1
Date: Thu, 23 Jan 2025 07:47:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.210427
Title: Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering
Title（参考訳）: アドバンストフィルタを用いたハイブリッドインデクシング手法による数十億ドル規模の類似度探索
Authors: Simeon Emanuilov, Aleksandar Dimov,
Abstract要約: 本稿では,CPU推論に最適化された数十億規模のデータセット上での複雑なフィルタリング機能を備えた類似度探索のための新しい手法を提案する。提案手法は,従来のIVF-Flatインデックス構造を拡張し,多次元フィルタを統合する。提案アルゴリズムは,高次元空間での高速な探索を可能にするため,高密度埋め込みと離散フィルタ特性を組み合わせる。
参考スコア（独自算出の注目度）: 49.1574468325115
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents a novel approach for similarity search with complex filtering capabilities on billion-scale datasets, optimized for CPU inference. Our method extends the classical IVF-Flat index structure to integrate multi-dimensional filters. The proposed algorithm combines dense embeddings with discrete filtering attributes, enabling fast retrieval in high-dimensional spaces. Designed specifically for CPU-based systems, our disk-based approach offers a cost-effective solution for large-scale similarity search. We demonstrate the effectiveness of our method through a case study, showcasing its potential for various practical uses.
Abstract（参考訳）: 本稿では,CPU推論に最適化された数十億規模のデータセット上での複雑なフィルタリング機能を備えた類似度探索のための新しい手法を提案する。提案手法は,従来のIVF-Flatインデックス構造を拡張し,多次元フィルタを統合する。提案アルゴリズムは,高次元空間での高速な探索を可能にするため,高密度埋め込みと離散フィルタ特性を組み合わせた。 CPUベースのシステムに特化して設計された私たちのディスクベースのアプローチは、大規模な類似性検索のためのコスト効率の高いソリューションを提供します。本手法の有効性をケーススタディで実証し,様々な用途に応用できる可能性を示した。

関連論文リスト

Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis [0.5249805590164902]
Filtered Approximate Nearest Neighbor Search (FANNS) は、セマンティック検索とメタデータの制約を組み合わせるために用いられる。本研究では,フィルタリング戦略の分類を体系化し,それらのベクトルへの統合性を評価する。実験の結果,エンジン内のアルゴリズム適応がしばしば生のインデックス性能を上回ることがわかった。
論文参考訳（メタデータ） (2026-02-11T23:40:26Z)
Attribute Filtering in Approximate Nearest Neighbor Search: An In-depth Experimental Study [18.5007917065799]
本稿では,最新のアルゴリズムを包含した統合フィルタリングANN検索インタフェースを提案する。まず,属性型とフィルタリング戦略に基づく既存のフィルタANNアルゴリズムの包括的分類法を提案する。次に、4つのデータセットにまたがる10のアルゴリズムと12のメソッドについて、幅広い実験的評価を行う。
論文参考訳（メタデータ） (2025-08-22T09:54:57Z)
Large-scale Multi-objective Feature Selection: A Multi-phase Search Space Shrinking Approach [0.27624021966289597]
特徴の選択は、特に高次元データセットにおいて、機械学習において重要なステップである。本稿では,LMSSSと呼ばれる探索空間の縮小に基づく大規模多目的進化アルゴリズムを提案する。提案アルゴリズムの有効性は、15の大規模データセットに対する包括的実験によって実証される。
論文参考訳（メタデータ） (2024-10-13T23:06:10Z)
Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-07-22T08:19:34Z)
Decomposed Guided Dynamic Filters for Efficient RGB-Guided Depth Completion [46.04264366475848]
RGB誘導深度補正は、スパース深度測定と対応するRGB画像から深度マップを予測することを目的としている。ガイド付き動的フィルタは、RGB特徴から空間的に可変な深度分割可能な畳み込みフィルタを生成し、深度特徴を導出する。本稿では,ガイド付き動的フィルタを空間的に共有されたコンポーネントに分解し,各空間位置におけるコンテンツ適応型適応器を乗じて分解する。
論文参考訳（メタデータ） (2023-09-05T08:37:58Z)
Gotta match 'em all: Solution diversification in graph matching matched filters [13.841897638543033]
非常に大きな背景グラフに複数のノイズを埋め込んだテンプレートグラフを見つけるための新しい手法を提案する。提案手法は,Sussmanらによって提案されたグラフマッチング・マッチング・フィルタ技術に基づいている。
論文参考訳（メタデータ） (2023-08-25T15:53:30Z)
Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文参考訳（メタデータ） (2022-09-27T17:51:31Z)
Efficient Joint-Dimensional Search with Solution Space Regularization for Real-Time Semantic Segmentation [27.94898516315886]
この問題に対して,リアルタイムに実行可能な最適ネットワーク構造を探索する。新たな解空間規則化(SSR)損失は、スーパーネットが離散的に収束することを効果的に促すために最初に提案される。より高効率な探索を実現するために,新しい階層的・プログレッシブ・ソリューション・スペース・スライキング法を提案する。
論文参考訳（メタデータ） (2022-08-10T11:07:33Z)
Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文参考訳（メタデータ） (2021-12-06T20:34:55Z)
Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。 FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文参考訳（メタデータ） (2021-09-13T08:31:59Z)
The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。 i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文参考訳（メタデータ） (2020-08-24T12:09:55Z)
LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。 LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文参考訳（メタデータ） (2020-03-06T00:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。