Fugu-MT 論文翻訳(概要): Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search

論文の概要: Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search

arxiv url: http://arxiv.org/abs/2501.10479v1
Date: Thu, 16 Jan 2025 20:45:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.035614
Title: Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search
Title（参考訳）: 近似近傍探索のためのベクトルIDのロスレス圧縮
Authors: Daniel Severo, Giuseppe Ottaviano, Matthew Muckley, Karen Ullrich, Matthijs Douze,
Abstract要約: インデックスのサイズを減らすために、ロスシー圧縮が広く適用されている。逆ファイルとグラフベースのインデックスでは、ベクトルIDやリンクなどの補助データはほとんどのストレージコストを表すことができる。いくつかのデータセットに対して、これらの手法は量子化されたベクトルコードも無害に圧縮できることを示す。
参考スコア（独自算出の注目度）: 11.938555573590964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Approximate nearest neighbor search for vectors relies on indexes that are most often accessed from RAM. Therefore, storage is the factor limiting the size of the database that can be served from a machine. Lossy vector compression, i.e., embedding quantization, has been applied extensively to reduce the size of indexes. However, for inverted file and graph-based indices, auxiliary data such as vector ids and links (edges) can represent most of the storage cost. We introduce and evaluate lossless compression schemes for these cases. These approaches are based on asymmetric numeral systems or wavelet trees that exploit the fact that the ordering of ids is irrelevant within the data structures. In some settings, we are able to compress the vector ids by a factor 7, with no impact on accuracy or search runtime. On billion-scale datasets, this results in a reduction of 30% of the index size. Furthermore, we show that for some datasets, these methods can also compress the quantized vector codes losslessly, by exploiting sub-optimalities in the original quantization algorithm. The source code for our approach available at https://github.com/facebookresearch/vector_db_id_compression.
Abstract（参考訳）: 近接するベクトルの近傍探索は、最も頻繁にRAMからアクセスされるインデックスに依存する。したがって、ストレージは、マシンから提供可能なデータベースのサイズを制限する要因である。ロッシーベクトル圧縮(Lossy vector compression、すなわち埋め込み量子化)は、インデックスのサイズを減らすために広く応用されている。しかし、逆ファイルやグラフベースのインデックスの場合、ベクトルIDやリンク(エッジ)などの補助データはほとんどのストレージコストを表わすことができる。これらのケースに対して、損失のない圧縮方式を導入し、評価する。これらのアプローチは、IDの順序がデータ構造の中で無関係であるという事実を利用する非対称な数字系やウェーブレット木に基づいている。いくつかの設定では、ベクトルIDを第7因子で圧縮することができ、精度や検索ランタイムに影響を与えない。数十億のデータセットでは、インデックスサイズの30%が削減される。さらに,これらの手法では,元となる量子化アルゴリズムの準最適性を利用して,量子化されたベクトルコードを無害に圧縮することもできることを示す。このアプローチのソースコードはhttps://github.com/facebookresearch/vector_db_id_compressionで公開されています。

関連論文リスト

Industrial-Scale Neural Network Clone Detection with Disk-Based Similarity Search [0.24091079613649843]
コードクローンは、コピー&ペーストプログラミングからしばしば生じる類似のコードフラグメントである。既存のニューラルネットワークベースのクローン検出スキームを拡張して、利用可能なメモリを超えるクローンを処理する。メモリに収まる問題サイズの問題に対して、私たちのアプローチはインメモリアプローチよりも約2$times$遅いことを実証しています。
論文参考訳（メタデータ） (2025-04-24T22:50:23Z)
PDX: A Data Layout for Vector Similarity Search [0.0]
Partition Across Dimensions (PDX) は、複数のベクトルを1ブロックに格納するベクトルのためのデータレイアウトである。 PDXが標準水平ベクトルストレージ(40%高速化)でSIMD最適化距離カーネルを破るさらにフレキシブルな次元探索戦略であるPDX-BONDを導入し,正確な探索性能と近似探索性能を向上した。
論文参考訳（メタデータ） (2025-03-06T13:31:16Z)
Generalized compression and compressive search of large datasets [0.0]
panCAKESは圧縮検索の新しいアプローチであり、圧縮されたデータに対して$k$-NNと$rho$-NN検索を実行する方法である。 PanCAKESは多様体仮説を仮定し、データの低次元構造を利用して効率よく圧縮・探索する。ゲノミクス、プロテオミクス、データセットなど、さまざまなデータセットでpanCAKESをベンチマークします。
論文参考訳（メタデータ） (2024-09-18T17:25:31Z)
Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
Compression of Structured Data with Autoencoders: Provable Benefit of Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。 CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文参考訳（メタデータ） (2024-02-07T16:32:29Z)
The Faiss library [54.589857872477445]
Faissは、インデックス化手法と関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使用される。本稿では,ベクトル探索のトレードオフ空間とFaissの設計原理について,構造,最適化,インターフェースの観点から述べる。
論文参考訳（メタデータ） (2024-01-16T11:12:36Z)
Similarity search in the blink of an eye with compressed indices [3.39271933237479]
グラフベースのインデックスは現在、数十億の類似性検索において、最高のパフォーマンス技術である。より高速でより小さなグラフベースのインデックスを作成するための新しい手法とシステムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:10:39Z)
Nearest neighbor search with compact codes: A decoder perspective [77.60612610421101]
バイナリハッシュや製品量化器などの一般的な手法を自動エンコーダとして再解釈する。後方互換性のあるデコーダを設計し、同じ符号からベクトルの再構成を改善する。
論文参考訳（メタデータ） (2021-12-17T15:22:28Z)
Using Convolutional Neural Networks to Detect Compression Algorithms [0.0]
ベースデータセットを使用し、さまざまなアルゴリズムですべてのファイルを圧縮し、それに基づいてモデルを設計します。使用されるモデルは、圧縮、lzip、bzip2を使用して圧縮されたファイルを正確に識別することができた。
論文参考訳（メタデータ） (2021-11-17T11:03:16Z)
Partition and Code: learning how to compress graphs [50.29024357495154]
まず、分割アルゴリズムがグラフを基本構造に分解し、これらを確率分布を学習する小さな辞書の要素にマッピングし、エントロピーエンコーダが表現をビットに変換する。提案アルゴリズムは,非パラメトリックおよびパラメトリックグラフ圧縮器の異なるファミリーに対して,多種多様な実世界のネットワーク上で定量的に評価し,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2021-07-05T11:41:16Z)
Permute, Quantize, and Fine-tune: Efficient Compression of Neural Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文参考訳（メタデータ） (2020-10-29T15:47:26Z)
OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文参考訳（メタデータ） (2020-05-14T17:48:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。