論文の概要: From HNSW to Information-Theoretic Binarization: Rethinking the Architecture of Scalable Vector Search
- arxiv url: http://arxiv.org/abs/2601.11557v1
- Date: Tue, 16 Dec 2025 23:24:37 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-01-25 08:43:05.343506
- Title: From HNSW to Information-Theoretic Binarization: Rethinking the Architecture of Scalable Vector Search
- Title(参考訳): HNSWから情報理論二元化へ:スケーラブルベクトル探索のアーキテクチャを再考する
- Authors: Seyed Moein Abtahi, Majid Fekri, Tara Khani, Akramul Azim,
- Abstract要約: 本稿では,支配的な"HNSW + float32 + cosine similarity"スタックのアーキテクチャ的制約を分析する。
最大情報二項化(MIB)に基づく代替情報理論アーキテクチャの導入と実証評価を行った。
その結果,完全精度のシステムに匹敵する検索品質を示すとともに,レイテンシを大幅に低減し,高い要求レートで一定のスループットを維持することができた。
- 参考スコア(独自算出の注目度): 0.7804710977378487
- License:
- Abstract: Modern semantic search and retrieval-augmented generation (RAG) systems rely predominantly on in-memory approximate nearest neighbor (ANN) indexes over high-precision floating-point vectors, resulting in escalating operational cost and inherent trade-offs between latency, throughput, and retrieval accuracy. This paper analyzes the architectural limitations of the dominant "HNSW + float32 + cosine similarity" stack and evaluates existing cost-reduction strategies, including storage disaggregation and lossy vector quantization, which inevitably sacrifice either performance or accuracy. We introduce and empirically evaluate an alternative information-theoretic architecture based on maximally informative binarization (MIB), efficient bitwise distance metrics, and an information-theoretic scoring (ITS) mechanism. Unlike conventional ANN systems, this approach enables exhaustive search over compact binary representations, allowing deterministic retrieval and eliminating accuracy degradation under high query concurrency. Using the MAIR benchmark across 14 datasets and 10,038 queries, we compare this architecture against Elasticsearch, Pinecone, PGVector, and Qdrant. Results demonstrate retrieval quality comparable to full-precision systems, while achieving substantially lower latency and maintaining constant throughput at high request rates. We show that this architectural shift enables a truly serverless, cost-per-query deployment model, challenging the necessity of large in-memory ANN indexes for high-quality semantic search.
- Abstract(参考訳): 現代のセマンティックサーチと検索拡張生成(RAG)システムは、高精度浮動小数点ベクトル上のインメモリニアニアニアニア(ANN)インデックスに大きく依存している。
本稿では、支配的な"HNSW + float32 + cosine similarity"スタックのアーキテクチャ上の制約を分析し、ストレージの分散化や損失ベクトル量子化など、既存のコスト削減戦略を評価する。
本稿では,MIB(Maximally Informationative Binarization)に基づく代替情報理論アーキテクチャ,ビットワイド距離測定,ITS(Information-theoretic score)機構の導入と実証評価を行う。
従来のANNシステムとは異なり、この手法はコンパクトなバイナリ表現を網羅的に探索し、決定論的検索を可能にし、高いクエリ並列性の下で精度の低下を解消する。
14のデータセットと10,038のクエリにわたるMAIRベンチマークを使用して、このアーキテクチャをElasticsearch、Pinecone、PGVector、Qdrantと比較する。
その結果、完全精度のシステムに匹敵する検索品質を示しながら、レイテンシを大幅に低くし、高い要求レートで一定のスループットを維持することができた。
このアーキテクチャシフトは、真にサーバレスで、クエリ毎のデプロイメントモデルを可能にし、高品質なセマンティック検索のための大規模なメモリ内ANNインデックスの必要性に挑戦する。
関連論文リスト
- PCA-RAG: Principal Component Analysis for Efficient Retrieval-Augmented Generation [0.0]
高次元言語モデル埋め込みは、ストレージとレイテンシの観点からスケーラビリティの課題を提示することができる。
本稿では,主成分分析(PCA)を用いた埋め込み次元の低減について検討する。
そこで本研究では,PCAに基づく圧縮により,検索精度と資源効率のバランスがとれることを示す。
論文 参考訳(メタデータ) (2025-04-11T09:38:12Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - The Impacts of Data, Ordering, and Intrinsic Dimensionality on Recall in Hierarchical Navigable Small Worlds [0.09208007322096533]
調査は、HNSWがデータセットのスペクトルにわたって有効であることに焦点を当てている。
我々は、KN(K Nearest Neighbours)探索と比較して、近似HNSW探索のリコールが、ベクトル空間の固有次元と結びついていることを発見した。
一般的なベンチマークデータセットをKNNの代わりにHNSWで実行することで、いくつかのモデルではランキングを最大3ポジションシフトすることができる。
論文 参考訳(メタデータ) (2024-05-28T04:16:43Z) - Hardware Aware Evolutionary Neural Architecture Search using
Representation Similarity Metric [12.52012450501367]
ハードウェア対応ニューラルアーキテクチャサーチ(ハードウェア対応ニューラルアーキテクチャサーチ、HW-NAS)は、特定のタスクとターゲットハードウェアのためにニューラルネットワークのアーキテクチャを自動的に設計する技術である。
HW-NASでは、重要な計算資源を必要とするため、候補アーキテクチャの性能を評価することが重要な課題である。
本稿では,HW-EvRSNASと呼ばれるハードウェア対応進化型NAS手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:58:40Z) - Shapley-NAS: Discovering Operation Contribution for Neural Architecture
Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。
提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-20T14:41:49Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。