論文の概要: The Faiss library
- arxiv url: http://arxiv.org/abs/2401.08281v2
- Date: Fri, 6 Sep 2024 15:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 20:43:32.704551
- Title: The Faiss library
- Title(参考訳): ファイス図書館
- Authors: Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazaré, Maria Lomeli, Lucas Hosseini, Hervé Jégou,
- Abstract要約: Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。
本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。
- 参考スコア(独自算出の注目度): 54.589857872477445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector databases typically manage large collections of embedding vectors. Currently, AI applications are growing rapidly, and so is the number of embeddings that need to be stored and indexed. The Faiss library is dedicated to vector similarity search, a core functionality of vector databases. Faiss is a toolkit of indexing methods and related primitives used to search, cluster, compress and transform vectors. This paper describes the trade-off space of vector search and the design principles of Faiss in terms of structure, approach to optimization and interfacing. We benchmark key features of the library and discuss a few selected applications to highlight its broad applicability.
- Abstract(参考訳): ベクトルデータベースは通常、埋め込みベクトルの大規模なコレクションを管理する。
現在、AIアプリケーションは急速に成長しており、保存とインデックス化が必要な埋め込みの数も増えています。
Faissライブラリはベクトルデータベースの中核機能であるベクトル類似性検索に特化している。
Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。
本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。
ライブラリの主要な機能をベンチマークし、その広範な適用性を強調するために、いくつかの選択されたアプリケーションについて議論する。
関連論文リスト
- LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。
LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。
我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文 参考訳(メタデータ) (2024-06-07T07:04:26Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Efficient Data Access Paths for Mixed Vector-Relational Search [8.80592433569832]
機械学習とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理のためのシステム構築に大きな関心を喚起した。
ベクトルデータ管理の主流のアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリはリレーショナル属性に対して選択的になる。
ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
論文 参考訳(メタデータ) (2024-03-23T11:34:17Z) - Curator: Efficient Indexing for Multi-Tenant Vector Databases [13.54470338115846]
本稿では,マルチテナントクエリに適したインメモリベクトルインデックス設計であるCuratorを提案する。
Curatorはテナント固有のクラスタリングツリーで各テナントのベクトルをインデックスし、これらのツリーを共有クラスタリングツリーのサブツリーとしてコンパクトにエンコードする。
2つの広く使われているデータセットに基づいて評価を行った結果,Curator が検索性能をテナントごとのインデックス化に匹敵するものであることが確認された。
論文 参考訳(メタデータ) (2024-01-13T17:08:09Z) - LeanVec: Searching vectors faster by making them fit [1.0863382547662974]
本稿では,高次元ベクトル上での類似性探索を高速化するために,線形次元減少とベクトル量子化を組み合わせたフレームワークLeanVecを提案する。
LeanVecは、検索のスループットを最大3.7倍改善し、インデックスビルド時間を最大4.9倍高速化する、最先端の結果を生成する。
論文 参考訳(メタデータ) (2023-12-26T21:14:59Z) - High-Throughput Vector Similarity Search in Knowledge Graphs [17.41683819564348]
最近のデータ管理システムでは,オンラインベクトル類似検索によるクエリ処理の拡張が提案されている。
本稿では,クエリの一部がベクトル類似性検索に対応するような,ハイブリッドなベクトル類似性検索(略してハイブリッドクエリ)に焦点を当てる。
本稿では,ハイブリッドクエリの高スループットバッチ処理のためのシステムHQIを提案する。
論文 参考訳(メタデータ) (2023-04-04T16:19:15Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - Lib-SibGMU -- A University Library Circulation Dataset for Recommender
Systems Developmen [58.720142291102135]
大学図書館の循環データセットLib-SibGMUをオープンソースとして公開しました。
ベクタライザからなるレコメンデータアーキテクチャでは,ベクタライザとしてfastTextモデルを使用することで,ベクタライザの競合的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-08-25T22:10:18Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。
Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文 参考訳(メタデータ) (2020-02-03T16:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。