Fugu-MT 論文翻訳(概要): The Faiss library

論文の概要: The Faiss library

arxiv url: http://arxiv.org/abs/2401.08281v2
Date: Fri, 6 Sep 2024 15:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 20:43:32.704551
Title: The Faiss library
Title（参考訳）: ファイス図書館
Authors: Matthijs Douze, Alexandr Guzhva, Chengqi Deng, Jeff Johnson, Gergely Szilvasy, Pierre-Emmanuel Mazaré, Maria Lomeli, Lucas Hosseini, Hervé Jégou,
Abstract要約: Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。
参考スコア（独自算出の注目度）: 54.589857872477445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vector databases typically manage large collections of embedding vectors. Currently, AI applications are growing rapidly, and so is the number of embeddings that need to be stored and indexed. The Faiss library is dedicated to vector similarity search, a core functionality of vector databases. Faiss is a toolkit of indexing methods and related primitives used to search, cluster, compress and transform vectors. This paper describes the trade-off space of vector search and the design principles of Faiss in terms of structure, approach to optimization and interfacing. We benchmark key features of the library and discuss a few selected applications to highlight its broad applicability.
Abstract（参考訳）: ベクトルデータベースは通常、埋め込みベクトルの大規模なコレクションを管理する。現在、AIアプリケーションは急速に成長しており、保存とインデックス化が必要な埋め込みの数も増えています。 Faissライブラリはベクトルデータベースの中核機能であるベクトル類似性検索に特化している。 Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。ライブラリの主要な機能をベンチマークし、その広範な適用性を強調するために、いくつかの選択されたアプリケーションについて議論する。

関連論文リスト

Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。 AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文参考訳（メタデータ） (2026-02-24T18:57:33Z)
Beyond Nearest Neighbors: Semantic Compression and Graph-Augmented Retrieval for Enhanced Vector Search [2.377892000761193]
本稿では,クエリの周囲のより広いセマンティック構造をキャプチャする,コンパクトで代表的なベクトル群を選択することを目的としたセマンティック圧縮という新しい検索パラダイムを提案する。このアイデアを運用するために,ベクトル空間上に意味グラフ(kNNや知識ベースリンクなど)をオーバーレイするグラフ拡張ベクター検索を提案する。本研究は,ハイブリットインデックス,多様性を考慮したクエリ,構造化セマンティック検索を重視した意味中心ベクトル探索システムの基礎を概説する。
論文参考訳（メタデータ） (2025-07-25T23:35:11Z)
HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。 nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文参考訳（メタデータ） (2025-05-18T19:26:29Z)
MINT: Multi-Vector Search Index Tuning [11.309615417231498]
レイテンシを最小化し、ストレージとリコールの制約を満たすインデックスを見つけるアルゴリズムを開発した。ベースラインと比較して、レイテンシは2.1倍から8.3倍のスピードアップを達成した。
論文参考訳（メタデータ） (2025-04-28T17:36:06Z)
SPFresh: Incremental In-Place Update for Billion-Scale Vector Search [19.245438083030006]
位置ベクトル更新をサポートするシステムであるSPFreshを紹介する。 SPFreshの中心は軽量なインクリメンタルリバランシングプロトコルであるLIREである。 LIREでは,グローバルリビルドに基づくソリューションに対して,クエリレイテンシと精度が向上する。
論文参考訳（メタデータ） (2024-10-18T13:24:18Z)
Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文参考訳（メタデータ） (2024-09-10T12:46:23Z)
MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings [15.275864151890511]
マルチベクトル探索を単一ベクトル類似性探索に還元する検索機構であるMUVERA(MUlti-VEctor Retrieval Algorithm)を導入する。 MUVERAはBEIR検索データセットの多種多様なセットに対して、一貫して優れたエンドツーエンドのリコールとレイテンシを実現する。
論文参考訳（メタデータ） (2024-05-29T20:40:20Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
Efficient Data Access Paths for Mixed Vector-Relational Search [8.80592433569832]
機械学習とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理のためのシステム構築に大きな関心を喚起した。ベクトルデータ管理の主流のアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリはリレーショナル属性に対して選択的になる。ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
論文参考訳（メタデータ） (2024-03-23T11:34:17Z)
Curator: Efficient Indexing for Multi-Tenant Vector Databases [13.54470338115846]
本稿では,マルチテナントクエリに適したインメモリベクトルインデックス設計であるCuratorを提案する。 Curatorはテナント固有のクラスタリングツリーで各テナントのベクトルをインデックスし、これらのツリーを共有クラスタリングツリーのサブツリーとしてコンパクトにエンコードする。 2つの広く使われているデータセットに基づいて評価を行った結果,Curator が検索性能をテナントごとのインデックス化に匹敵するものであることが確認された。
論文参考訳（メタデータ） (2024-01-13T17:08:09Z)
LeanVec: Searching vectors faster by making them fit [1.0863382547662974]
本稿では,高次元ベクトル上での類似性探索を高速化するために,線形次元減少とベクトル量子化を組み合わせたフレームワークLeanVecを提案する。 LeanVecは、検索のスループットを最大3.7倍改善し、インデックスビルド時間を最大4.9倍高速化する、最先端の結果を生成する。
論文参考訳（メタデータ） (2023-12-26T21:14:59Z)
CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文参考訳（メタデータ） (2022-11-18T18:27:35Z)
Lib-SibGMU -- A University Library Circulation Dataset for Recommender Systems Developmen [58.720142291102135]
大学図書館の循環データセットLib-SibGMUをオープンソースとして公開しました。ベクタライザからなるレコメンデータアーキテクチャでは,ベクタライザとしてfastTextモデルを使用することで,ベクタライザの競合的な結果が得られることを示す。
論文参考訳（メタデータ） (2022-08-25T22:10:18Z)
Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。 Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文参考訳（メタデータ） (2020-02-03T16:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。