Fugu-MT 論文翻訳(概要): MINT: Multi-Vector Search Index Tuning

論文の概要: MINT: Multi-Vector Search Index Tuning

arxiv url: http://arxiv.org/abs/2504.20018v1
Date: Mon, 28 Apr 2025 17:36:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.542087
Title: MINT: Multi-Vector Search Index Tuning
Title（参考訳）: MINT:マルチベクター検索インデックスチューニング
Authors: Jiongli Zhu, Yue Wang, Bailu Ding, Philip A. Bernstein, Vivek Narasayya, Surajit Chaudhuri,
Abstract要約: レイテンシを最小化し、ストレージとリコールの制約を満たすインデックスを見つけるアルゴリズムを開発した。ベースラインと比較して、レイテンシは2.1倍から8.3倍のスピードアップを達成した。
参考スコア（独自算出の注目度）: 11.309615417231498
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vector search plays a crucial role in many real-world applications. In addition to single-vector search, multi-vector search becomes important for multi-modal and multi-feature scenarios today. In a multi-vector database, each row is an item, each column represents a feature of items, and each cell is a high-dimensional vector. In multi-vector databases, the choice of indexes can have a significant impact on performance. Although index tuning for relational databases has been extensively studied, index tuning for multi-vector search remains unclear and challenging. In this paper, we define multi-vector search index tuning and propose a framework to solve it. Specifically, given a multi-vector search workload, we develop algorithms to find indexes that minimize latency and meet storage and recall constraints. Compared to the baseline, our latency achieves 2.1X to 8.3X speedup.
Abstract（参考訳）: ベクトル探索は多くの現実世界のアプリケーションにおいて重要な役割を果たす。シングルベクターサーチに加えて、マルチベクターサーチは、今日ではマルチモーダルおよびマルチフィーチャーシナリオにおいて重要である。複数ベクトルデータベースにおいて、各行はアイテムであり、各列はアイテムの特徴を表し、各セルは高次元ベクトルである。マルチベクタデータベースでは、インデックスの選択がパフォーマンスに大きな影響を与える可能性がある。リレーショナルデータベースのためのインデックスチューニングは広く研究されているが、マルチベクトル探索のためのインデックスチューニングはいまだに明確で難しい。本稿では,マルチベクトル検索インデックスのチューニングを定義し,それを解決するためのフレームワークを提案する。具体的には、マルチベクタ検索の負荷を考慮して、レイテンシを最小化し、ストレージとリコールの制約を満たすインデックスを見つけるアルゴリズムを開発した。ベースラインと比較して、レイテンシは2.1倍から8.3倍のスピードアップを達成した。

関連論文リスト

Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。 AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文参考訳（メタデータ） (2026-02-24T18:57:33Z)
Multiple Index Merge for Approximate Nearest Neighbor Search [14.386466486046814]
本稿では、AKNN検索のための効率的な2次元統合と複数のインデックスのマージ順序について述べる。本稿では,構造情報を活用してマージ効率を向上させるリバース隣り合うスライディング・マージ(RNSM)を提案する。実験の結果,既存のインデックスマージ法よりも5.48$times$スピードアップ,9.92$times$インデックス再構成よりも9.92$times$スピードアップが得られた。
論文参考訳（メタデータ） (2026-02-19T05:50:34Z)
Rethinking ANN-based Retrieval: Multifaceted Learnable Index for Large-scale Recommendation System [46.70111672855811]
MultiFaceted Learnable Index (MFLI)は、マルチフェイスアイテムの埋め込みとインデックスを統一されたフレームワーク内で学習するスケーラブルでリアルタイムな検索パラダイムである。 MFLIは、エンゲージメントタスクのリコールを最大11.8%改善し、コールドコンテントデリバリを最大57.29%改善し、セマンティック関連性を従来の最先端手法と比較して13.5%改善した。
論文参考訳（メタデータ） (2026-02-18T01:31:29Z)
LEMUR: Learned Multi-Vector Retrieval [9.22384870426709]
マルチベクタ類似度探索のためのフレームワーク LEMUR を紹介する。 LEMURは2つの連続した問題削減で構成されている。 LEMURは、従来のマルチベクトル類似性探索法よりも桁違いに高速である。
論文参考訳（メタデータ） (2026-01-29T15:26:32Z)
HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。 nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文参考訳（メタデータ） (2025-05-18T19:26:29Z)
Cost-Effective, Low Latency Vector Search with Azure Cosmos DB [14.76627855468578]
Azure Cosmos DBのようなクラウドネイティブな運用データベース内に,スケーラブルで高性能で費用効率の高いベクトル検索システムを構築することができる,と私たちは主張する。このシステムは、既存のインデックスツリーに格納されたパーティション毎に単一のベクトルインデックスを使用し、基礎となるデータと同期する。 1000万のベクトルにまたがるインデックス上で20msのクエリレイテンシをサポートし、更新のリコールが安定しており、PineconeやZil Diskのサーバレスエンタープライズ製品と比較して約43倍、12倍低いクエリコストが提供される。
論文参考訳（メタデータ） (2025-05-09T08:53:59Z)
Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文参考訳（メタデータ） (2024-09-10T12:46:23Z)
MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings [15.275864151890511]
マルチベクトル探索を単一ベクトル類似性探索に還元する検索機構であるMUVERA(MUlti-VEctor Retrieval Algorithm)を導入する。 MUVERAはBEIR検索データセットの多種多様なセットに対して、一貫して優れたエンドツーエンドのリコールとレイテンシを実現する。
論文参考訳（メタデータ） (2024-05-29T20:40:20Z)
Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。 SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
The Faiss library [54.589857872477445]
Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。
論文参考訳（メタデータ） (2024-01-16T11:12:36Z)
Curator: Efficient Indexing for Multi-Tenant Vector Databases [13.54470338115846]
本稿では,マルチテナントクエリに適したインメモリベクトルインデックス設計であるCuratorを提案する。 Curatorはテナント固有のクラスタリングツリーで各テナントのベクトルをインデックスし、これらのツリーを共有クラスタリングツリーのサブツリーとしてコンパクトにエンコードする。 2つの広く使われているデータセットに基づいて評価を行った結果,Curator が検索性能をテナントごとのインデックス化に匹敵するものであることが確認された。
論文参考訳（メタデータ） (2024-01-13T17:08:09Z)
CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文参考訳（メタデータ） (2022-11-18T18:27:35Z)
Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文参考訳（メタデータ） (2021-12-06T20:34:55Z)
The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。 i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文参考訳（メタデータ） (2020-08-24T12:09:55Z)
Tsunami: A Learned Multi-dimensional Index for Correlated Data and Skewed Workloads [29.223401893397714]
我々は,既存の学習した多次元インデックスよりも最大6倍高速なクエリ性能と最大8倍のインデックスサイズを実現する綱見を紹介した。
論文参考訳（メタデータ） (2020-06-23T19:25:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。