論文の概要: Curator: Efficient Indexing for Multi-Tenant Vector Databases
- arxiv url: http://arxiv.org/abs/2401.07119v1
- Date: Sat, 13 Jan 2024 17:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:46:56.686340
- Title: Curator: Efficient Indexing for Multi-Tenant Vector Databases
- Title(参考訳): curator:マルチテナントベクターデータベースの効率的なインデックス化
- Authors: Yicheng Jin, Yongji Wu, Wenjun Hu, Bruce M. Maggs, Xiao Zhang, Danyang
Zhuo
- Abstract要約: 本稿では,マルチテナントクエリに適したインメモリベクトルインデックス設計であるCuratorを提案する。
Curatorはテナント固有のクラスタリングツリーで各テナントのベクトルをインデックスし、これらのツリーを共有クラスタリングツリーのサブツリーとしてコンパクトにエンコードする。
2つの広く使われているデータセットに基づいて評価を行った結果,Curator が検索性能をテナントごとのインデックス化に匹敵するものであることが確認された。
- 参考スコア(独自算出の注目度): 13.54470338115846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector databases have emerged as key enablers for bridging intelligent
applications with unstructured data, providing generic search and management
support for embedding vectors extracted from the raw unstructured data. As
multiple data users can share the same database infrastructure, multi-tenancy
support for vector databases is increasingly desirable. This hinges on an
efficient filtered search operation, i.e., only querying the vectors accessible
to a particular tenant. Multi-tenancy in vector databases is currently achieved
by building either a single, shared index among all tenants, or a per-tenant
index. The former optimizes for memory efficiency at the expense of search
performance, while the latter does the opposite. Instead, this paper presents
Curator, an in-memory vector index design tailored for multi-tenant queries
that simultaneously achieves the two conflicting goals, low memory overhead and
high performance for queries, vector insertion, and deletion. Curator indexes
each tenant's vectors with a tenant-specific clustering tree and encodes these
trees compactly as sub-trees of a shared clustering tree. Each tenant's
clustering tree adapts dynamically to its unique vector distribution, while
maintaining a low per-tenant memory footprint. Our evaluation, based on two
widely used data sets, confirms that Curator delivers search performance on par
with per-tenant indexing, while maintaining memory consumption at the same
level as metadata filtering on a single, shared index.
- Abstract(参考訳): ベクターデータベースは、非構造化データでインテリジェントなアプリケーションを橋渡しするためのキーイネーブラとして登場し、生の非構造化データから抽出された埋め込みベクターの汎用検索と管理のサポートを提供する。
複数のデータユーザが同じデータベースインフラストラクチャを共有できるため、ベクトルデータベースに対するマルチテナンシのサポートがますます望ましい。
これは効率的なフィルタ付き検索操作、すなわち特定のテナントにアクセス可能なベクターのみを問い合わせることにかかっている。
ベクトルデータベースのマルチテナントは現在、すべてのテナント間で単一の共有インデックスを構築するか、テナント毎にインデックスを構築することで実現されている。
前者は検索性能を犠牲にしてメモリ効率を最適化するが、後者は逆を行う。
そこで本研究では,メモリオーバーヘッドの低減,クエリの高速化,ベクトル挿入,削除という2つの相反する目標を同時に達成する,マルチテナントクエリに適したインメモリベクトルインデックス設計であるCuratorを提案する。
curatorはテナントのベクトルをテナント固有のクラスタリングツリーにインデックスし、これらのツリーを共有クラスタリングツリーのサブツリーとしてコンパクトにエンコードする。
各テナントのクラスタリングツリーは、テナント毎のメモリフットプリントを低く保ちながら、ユニークなベクトル分布に動的に適応する。
評価の結果,Curatorは,1つの共有インデックス上でのメタデータフィルタリングと同程度のメモリ消費を維持しながら,テナント単位のインデックスと同等の検索性能を提供することを確認した。
関連論文リスト
- Annotative Indexing [8.684302613224338]
アノテーションインデックスは、従来の逆インデックス、列ストア、オブジェクトストア、グラフデータベースを統一し、一般化する新しいフレームワークである。
アノテーションインデックスは、知識グラフ、エンティティ、半構造化データ、ランク付けをサポートするデータベースの基盤となるインデックスフレームワークを提供することができる。
論文 参考訳(メタデータ) (2024-11-09T19:07:58Z) - Differentially Private Learned Indexes [4.290415158471898]
我々は、暗号化されたデータベース上の述語クエリ、信頼された実行環境(TEE)によって確保されたクエリに効率よく応答する問題に対処する。
述語クエリを高速化する現代のデータベースにおける一般的な戦略は、インデックスの使用である。
残念ながら、強力なデータ依存リークのため、インデックスは暗号化されたデータベースに直接適用できない。
本研究では,よりコンパクトなDPインデックスを構築するために,機械学習モデルをインデックス構造として再利用するトレンド手法である学習指標を活用することを提案する。
論文 参考訳(メタデータ) (2024-10-28T16:04:58Z) - Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Efficient Data Access Paths for Mixed Vector-Relational Search [8.80592433569832]
機械学習とベクトル埋め込みを用いたデータ処理手法の採用は、ベクトルデータ管理のためのシステム構築に大きな関心を喚起した。
ベクトルデータ管理の主流のアプローチは、ベクトル埋め込み全体を高速に検索するために特別なインデックス構造を使用することであるが、一度他の(メタ)データと組み合わせると、検索クエリはリレーショナル属性に対して選択的になる。
ベクトルインデックスは従来の関係データアクセスと異なるため、効率的な混合ベクトル関係探索のための代替アクセスパスを再検討し分析する。
論文 参考訳(メタデータ) (2024-03-23T11:34:17Z) - The Faiss library [54.589857872477445]
Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。
本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。
論文 参考訳(メタデータ) (2024-01-16T11:12:36Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。