Fugu-MT 論文翻訳(概要): AQR-HNSW: Accelerating Approximate Nearest Neighbor Search via Density-aware Quantization and Multi-stage Re-ranking

論文の概要: AQR-HNSW: Accelerating Approximate Nearest Neighbor Search via Density-aware Quantization and Multi-stage Re-ranking

arxiv url: http://arxiv.org/abs/2602.21600v1
Date: Wed, 25 Feb 2026 05:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.720272
Title: AQR-HNSW: Accelerating Approximate Nearest Neighbor Search via Density-aware Quantization and Multi-stage Re-ranking
Title（参考訳）: AQR-HNSW:密度認識量子化と多段階再分類による近似近傍探索の高速化
Authors: Ganap Ashit Tewary, Nrusinga Charan Gantayat, Jeff Zhang,
Abstract要約: 本稿では,HNSWのスケーラビリティ向上のための3つの戦略を統合する新しいフレームワークであるAdaptive Quantization and Rerank HNSWを提案する。 AQR-HNSWは(1)密度対応適応量子化を導入し、距離関係を保ちながら4倍の圧縮を実現し、(2)不要な計算を35%削減するマルチステートリグレード、(3)アーキテクチャ全体にわたって16-64の演算を実現する量子化最適化SIMDの実装を導入している。標準ベンチマークによる評価では、現在のHNSW実装よりも2.5-3.3倍高いクエリが、インデックスグラフの75%のメモリ削減と98%以上のリコールを維持している。
参考スコア（独自算出の注目度）: 1.2690814190593385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Approximate Nearest Neighbor (ANN) search has become fundamental to modern AI infrastructure, powering recommendation systems, search engines, and large language models across industry leaders from Google to OpenAI. Hierarchical Navigable Small World (HNSW) graphs have emerged as the dominant ANN algorithm, widely adopted in production systems due to their superior recall versus latency balance. However, as vector databases scale to billions of embeddings, HNSW faces critical bottlenecks: memory consumption expands, distance computation overhead dominates query latency, and it suffers suboptimal performance on heterogeneous data distributions. This paper presents Adaptive Quantization and Rerank HNSW (AQR-HNSW), a novel framework that synergistically integrates three strategies to enhance HNSW scalability. AQR-HNSW introduces (1) density-aware adaptive quantization, achieving 4x compression while preserving distance relationships; (2) multi-state re-ranking that reduces unnecessary computations by 35%; and (3) quantization-optimized SIMD implementations delivering 16-64 operations per cycle across architectures. Evaluation on standard benchmarks demonstrates 2.5-3.3x higher queries per second (QPS) than state-of-the-art HNSW implementations while maintaining over 98% recall, with 75% memory reduction for the index graph and 5x faster index construction.
Abstract（参考訳）: Approximate Nearest Neighbor(ANN)検索は、GoogleからOpenAIに至るまでの業界リーダーにわたる、現代的なAIインフラストラクチャの基礎となり、レコメンデーションシステム、検索エンジン、大規模言語モデルに力を入れている。階層的ナビゲート可能な小型世界(HNSW)グラフは、リコールとレイテンシのバランスが優れているため、プロダクションシステムにおいて広く採用されている、支配的なANNアルゴリズムとして登場した。しかし、ベクトルデータベースが数十億の埋め込みにスケールするにつれて、HNSWは重大なボトルネックに直面している。本稿では,HNSWのスケーラビリティ向上のための3つの戦略を相乗的に統合した新しいフレームワークであるAdaptive Quantization and Rerank HNSW(AQR-HNSW)を提案する。 AQR-HNSWは(1)密度対応適応量子化を導入し、距離関係を保ちながら4倍の圧縮を実現し、(2)不要な計算を35%削減するマルチステートリグレード、(3)アーキテクチャ全体にわたって16-64の演算を実現する量子化最適化SIMDの実装を導入している。標準ベンチマークの評価では、最先端のHNSW実装よりも2.5-3.3倍高いクエリ(QPS)を示し、98%以上のリコールを維持し、インデックスグラフの75%のメモリ削減と5倍高速なインデックス構築を実現している。

関連論文リスト

Reranker Optimization via Geodesic Distances on k-NN Manifolds [0.0]
我々は,k-アネレスト近傍(k-NN)方程式上の測地距離を計算する幾何学的階乗法であるManiscopeを提案する。 Maniscopeは、最も難しい3つのデータセットにおいて、HNSWグラフベースのベースラインを上回っている。クロスエンコーダのリランカと比較して、Maniscopeは10～45倍のレイテンシで2%の精度で実現している。
論文参考訳（メタデータ） (2026-01-26T07:55:08Z)
From HNSW to Information-Theoretic Binarization: Rethinking the Architecture of Scalable Vector Search [0.7804710977378487]
本稿では,支配的な"HNSW + float32 + cosine similarity"スタックのアーキテクチャ的制約を分析する。最大情報二項化(MIB)に基づく代替情報理論アーキテクチャの導入と実証評価を行った。その結果,完全精度のシステムに匹敵する検索品質を示すとともに,レイテンシを大幅に低減し,高い要求レートで一定のスループットを維持することができた。
論文参考訳（メタデータ） (2025-12-16T23:24:37Z)
Panorama: Fast-Track Nearest Neighbors [22.201421121801218]
本稿では,機械学習によるアプローチであるPANORAMAを提案する。 PANORAMAは、2-30$times$ end-to-end speedupをリコールロスなしで利用できることを示す。
論文参考訳（メタデータ） (2025-10-01T06:38:45Z)
Scaling Linear Attention with Sparse State Expansion [62.749291436866606]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。より効率的な文脈圧縮を実現するための2つの重要な革新を提案する。まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文参考訳（メタデータ） (2025-07-22T13:27:31Z)
Dual-Branch HNSW Approach with Skip Bridges and LID-Driven Optimization [0.8786066051474574]
Hierarchical Navigable Small World (HNSW)アルゴリズムは近接探索に広く利用されている。提案手法は, 局所最適化とクラスタ切断を緩和し, 建設速度を向上し, 推論速度を向上するアルゴリズムである。様々なベンチマークとデータセットの実験により、我々のアルゴリズムは元のHNSWを精度と速度の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2025-01-23T10:20:12Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
The Impacts of Data, Ordering, and Intrinsic Dimensionality on Recall in Hierarchical Navigable Small Worlds [0.09208007322096533]
調査は、HNSWがデータセットのスペクトルにわたって有効であることに焦点を当てている。我々は、KN(K Nearest Neighbours)探索と比較して、近似HNSW探索のリコールが、ベクトル空間の固有次元と結びついていることを発見した。一般的なベンチマークデータセットをKNNの代わりにHNSWで実行することで、いくつかのモデルではランキングを最大3ポジションシフトすることができる。
論文参考訳（メタデータ） (2024-05-28T04:16:43Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Learning to Solve Combinatorial Graph Partitioning Problems via Efficient Exploration [72.15369769265398]
実験により、ECORDは最大カット問題に対するRLアルゴリズムのための新しいSOTAを実現する。最も近い競合と比較して、ECORDは最適性ギャップを最大73%削減する。
論文参考訳（メタデータ） (2022-05-27T17:13:10Z)
Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。問題の大きさと問題グラフの次数で指数関数的に増大する。これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文参考訳（メタデータ） (2022-01-06T21:02:30Z)
NPAS: A Compiler-aware Framework of Unified Network Pruning and Architecture Search for Beyond Real-Time Mobile Acceleration [48.25487285358816]
異なるDNNと異なるプルーニングスキームをサポートするコンパイラ自動コード生成フレームワークを提案する。また,NPAS,コンパイラ対応統合ネットワークプルーニング,アーキテクチャ検索を提案する。我々のフレームワークは,市販携帯電話でそれぞれ78.2%,75%(MobileNet-V3レベル),71%(MobileNet-V2レベル)のTop-1精度で6.7ms,5.9ms,3.9msのImageNet推論時間を実現している。
論文参考訳（メタデータ） (2020-12-01T16:03:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。