論文の概要: The Curious Case of High-Dimensional Indexing as a File Structure: A Case Study of eCP-FS
- arxiv url: http://arxiv.org/abs/2507.21939v1
- Date: Tue, 29 Jul 2025 15:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.575737
- Title: The Curious Case of High-Dimensional Indexing as a File Structure: A Case Study of eCP-FS
- Title(参考訳): ファイル構造としての高次元インデクシングの事例:eCP-FSを事例として
- Authors: Omar Shahbaz Khan, Gylfi Þór Guðmundsson, Björn Þór Jónsson,
- Abstract要約: eCP-FSは、ディスクベースのANNインデックスであるeCPのファイルベースの実装である。
本稿では、ディスクベースのANNインデックスであるeCPのファイルベース実装であるeCP-FSを提案する。
メモリ制約のあるシナリオでは、eCP-FSは最小限のメモリフットプリントを提供し、リソース制約やマルチインデックス環境に最適である。
- 参考スコア(独自算出の注目度): 0.8998543739618077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern analytical pipelines routinely deploy multiple deep learning and retrieval models that rely on approximate nearest-neighbor (ANN) indexes to support efficient similarity-based search. While many state-of-the-art ANN-indexes are memory-based (e.g., HNSW and IVF), using multiple ANN indexes creates a competition for limited GPU/CPU memory resources, which in turn necessitates disk-based index structures (e.g., DiskANN or eCP). In typical index implementations, the main component is a complex data structure that is serialized to disk and is read either fully at startup time, for memory-based indexes, or incrementally at query time, for disk-based indexes. To visualize the index structure, or analyze its quality, complex coding is needed that is either embedded in the index implementation or replicates the code that reads the data structure. In this paper, we consider an alternative approach that maps the data structure to a file structure, using a file library, making the index easily readable for any programming language and even human-readable. The disadvantage is that the serialized index is verbose, leading to overhead of searching through the index. The question addressed in this paper is how severe this performance penalty is. To that end, this paper presents eCP-FS, a file-based implementation of eCP, a well-known disk-based ANN index. A comparison with state-of-the-art indexes shows that while eCP-FS is slower, the implementation is nevertheless somewhat competitive even when memory is not constrained. In a memory-constrained scenario, eCP-FS offers a minimal memory footprint, making it ideal for resource-constrained or multi-index environments.
- Abstract(参考訳): 現代の分析パイプラインは、効率のよい類似性に基づく探索をサポートするために、近接隣り合う(ANN)インデックスに依存する複数のディープラーニングと検索モデルを日常的に展開している。
多くの最先端のANNインデックスはメモリベース(例えば、HNSW、IVF)であるが、複数のANNインデックスを使用すると、限られたGPU/CPUメモリリソースの競合が生じ、ディスクベースのインデックス構造(例えば、DiskANNやeCP)を必要とする。
典型的なインデックス実装では、メインコンポーネントはディスクにシリアライズされた複雑なデータ構造であり、起動時に、メモリベースのインデックスに対して、または、ディスクベースのインデックスに対して、インクリメンタルに、完全に読み込まれる。
インデックス構造を視覚化したり、その品質を分析したりするには、インデックス実装に埋め込まれた複雑なコーディングか、データ構造を読み込むコードを複製する必要がある。
本稿では,ファイルライブラリを用いて,データ構造をファイル構造にマッピングする代替手法を検討する。
欠点は、シリアライズされたインデックスが冗長であり、インデックスを検索するオーバーヘッドにつながることである。
本論文では,このパフォーマンスペナルティがどの程度厳しいのか,という疑問を提起する。
そこで本稿では,ディスクベースのANNインデックスであるeCPのファイルベース実装であるeCP-FSを提案する。
最先端のインデックスと比較すると、eCP-FSは遅いが、メモリが制約されていない場合でも、実装は多少競争力がある。
メモリ制約のあるシナリオでは、eCP-FSは最小限のメモリフットプリントを提供し、リソース制約やマルチインデックス環境に最適である。
関連論文リスト
- Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [124.68209298883296]
Infini-gram miniはペタバイトレベルのテキストコーパスを検索可能にするスケーラブルなシステムである。
私たちは128コアのCPUノードで、50日間で46TBのインターネットテキストをインデックスします。
Infini-gram miniのベンチマーク汚染の大規模解析における重要な利用例を示す。
論文 参考訳(メタデータ) (2025-06-13T21:13:57Z) - LEANN: A Low-Storage Vector Index [70.13770593890655]
LEANNは、リソース制約されたパーソナルデバイスに最適化された、ストレージ効率の近い近接検索インデックスである。
評価の結果,LEANNは原データの5%以下までインデックスサイズを縮小し,標準インデックスの最大50倍のストレージを実現した。
論文 参考訳(メタデータ) (2025-06-09T22:43:30Z) - HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。
我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。
nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文 参考訳(メタデータ) (2025-05-18T19:26:29Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - LSI: A Learned Secondary Index Structure [24.324528705706104]
本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。
LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。
論文 参考訳(メタデータ) (2022-05-11T20:49:44Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Partial 3D Object Retrieval using Local Binary QUICCI Descriptors and
Dissimilarity Tree Indexing [2.922007656878633]
Quick Intersection Count Change Image(QUICCI)に基づく高精度かつ効率的な部分的3次元オブジェクト検索のための完全パイプラインの提案
QUICCIクエリ記述子の変更が、部分的検索にどのように理想的であるかを示す。
局所記述子の広い空間の探索を著しく高速化する「異種木」という索引付け構造を提案する。
論文 参考訳(メタデータ) (2021-07-07T17:30:47Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。