論文の概要: KScaNN: Scalable Approximate Nearest Neighbor Search on Kunpeng
- arxiv url: http://arxiv.org/abs/2511.03298v1
- Date: Wed, 05 Nov 2025 09:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.390954
- Title: KScaNN: Scalable Approximate Nearest Neighbor Search on Kunpeng
- Title(参考訳): KScaNN: Kunpengのスケーラブルな近似的隣人検索
- Authors: Oleg Senkevich, Siyang Xu, Tianyi Jiang, Alexander Radionov, Jan Tabaszewski, Dmitriy Malyshev, Zijian Li, Daihao Xue, Licheng Yu, Weidi Zeng, Meiling Wang, Xin Yao, Siyu Huang, Gleb Neshchetkin, Qiuling Pan, Yaoyao Fu,
- Abstract要約: 既存のx86 ANNSアルゴリズムをARMプラットフォームに移植すると、性能が大幅に低下する。
我々は、Kunpeng 920 ARMアーキテクチャ用に設計された新しいANNSアルゴリズムであるKScaNNを紹介する。
- 参考スコア(独自算出の注目度): 46.35664429179457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Approximate Nearest Neighbor Search (ANNS) is a cornerstone algorithm for information retrieval, recommendation systems, and machine learning applications. While x86-based architectures have historically dominated this domain, the increasing adoption of ARM-based servers in industry presents a critical need for ANNS solutions optimized on ARM architectures. A naive port of existing x86 ANNS algorithms to ARM platforms results in a substantial performance deficit, failing to leverage the unique capabilities of the underlying hardware. To address this challenge, we introduce KScaNN, a novel ANNS algorithm co-designed for the Kunpeng 920 ARM architecture. KScaNN embodies a holistic approach that synergizes sophisticated, data aware algorithmic refinements with carefully-designed hardware specific optimizations. Its core contributions include: 1) novel algorithmic techniques, including a hybrid intra-cluster search strategy and an improved PQ residual calculation method, which optimize the search process at a higher level; 2) an ML-driven adaptive search module that provides adaptive, per-query tuning of search parameters, eliminating the inefficiencies of static configurations; and 3) highly-optimized SIMD kernels for ARM that maximize hardware utilization for the critical distance computation workloads. The experimental results demonstrate that KScaNN not only closes the performance gap but establishes a new standard, achieving up to a 1.63x speedup over the fastest x86-based solution. This work provides a definitive blueprint for achieving leadership-class performance for vector search on modern ARM architectures and underscores
- Abstract(参考訳): Approximate Nearest Neighbor Search (ANNS)は、情報検索、レコメンデーションシステム、機械学習アプリケーションのための基盤となるアルゴリズムである。
x86ベースのアーキテクチャは歴史的にこの領域を支配してきたが、業界におけるARMベースのサーバの採用の増加は、ARMアーキテクチャに最適化されたANNSソリューションに対する重要な必要性を示している。
既存のx86 ANNSアルゴリズムをARMプラットフォームに移植すると、性能が大幅に低下し、基盤となるハードウェアのユニークな機能を利用することができない。
この課題に対処するため、Kunpeng 920 ARMアーキテクチャ用に設計された新しいANNSアルゴリズムであるKScaNNを紹介する。
KScaNNは、洗練されたデータ認識アルゴリズムの洗練と、慎重に設計されたハードウェア固有の最適化を相乗化するための全体論的アプローチを具現化している。
主な貢献は以下のとおりである。
1) クラスタ内探索戦略のハイブリッド化やPQ残差計算法の改善など,検索プロセスを高度に最適化する新しいアルゴリズム手法。
2)ML駆動の適応検索モジュールで、静的な構成の非効率性を排除し、検索パラメータの適応的、クエリごとのチューニングを提供する。
3) 重要な距離計算処理のハードウェア利用を最大化するARM用の高度に最適化されたSIMDカーネル。
実験の結果、KScaNNはパフォーマンスギャップを埋めるだけでなく、新しい標準を確立し、最速のx86ベースのソリューションで最大1.63倍のスピードアップを達成した。
この研究は、最新のARMアーキテクチャとアンダースコアのベクターサーチにおいて、リーダーシップクラスのパフォーマンスを達成するための決定的な青写真を提供する。
関連論文リスト
- ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - MONAS: Efficient Zero-Shot Neural Architecture Search for MCUs [5.321424657585365]
MONASは、エッジコンピューティングのマイクロコントローラ(MCU)用に特別に設計された、ゼロショットNASフレームワークである。
MONASは、MCUをターゲットとした以前の作業よりも1104倍の検索効率向上を実現している。
MONASは、より一般的なNASアプローチと同じような精度を維持しながら、MCUの3.23倍高速な推測でCNNモデルを発見することができる。
論文 参考訳(メタデータ) (2024-08-26T10:24:45Z) - Flexible Channel Dimensions for Differentiable Architecture Search [50.33956216274694]
本稿では,効率的な動的チャネル割当アルゴリズムを用いた新しい微分可能なニューラルアーキテクチャ探索法を提案する。
提案するフレームワークは,タスク精度と推論遅延において,従来の手法と等価なDNNアーキテクチャを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:21:38Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time
and Robustness [1.165213554548421]
本研究は,VTAハードウェアにおける自動チューニングプロセスとその基盤となる性能予測モデルに,不正な構成がどう影響するかを評価する。
AutoTVMの妥当性駆動方式が開発され、最良のソリューションを見つけるのに必要なハードウェアの41.6%しか必要としない。
論文 参考訳(メタデータ) (2022-05-31T07:16:14Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - Automated Design Space Exploration for optimised Deployment of DNN on
Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。
テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。
我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文 参考訳(メタデータ) (2020-06-09T11:00:06Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。