論文の概要: CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs
- arxiv url: http://arxiv.org/abs/2605.10090v1
- Date: Mon, 11 May 2026 07:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.591289
- Title: CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs
- Title(参考訳): マルチコアCPU上でのインメモリベクトルANNSのためのCCDレベルおよびロードアウェアスレッドオーケストレーション
- Authors: Yuchen Huang, Baiteng Ma, Yiping Sun, Yang Shi, Xiao Chen, Xiaocheng Zhong, Zhiyong Wang, Yao Hu, Chuliang Weng,
- Abstract要約: ベクター近傍サーチ(ANNS)は、検索エンジン、レコメンデーションシステム、広告サービスを支える。
ANNSインデックスの最近の進歩により、CPUは数百万スケールのインメモリベクトルサーチに費用対効果がある。
現代のCCDベースのマルチコアCPUは、私たちのサービスで高いスループットのために広くデプロイされています。
- 参考スコア(独自算出の注目度): 23.15508517135215
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vector approximate nearest neighbor search (ANNS) underpins search engines, recommendation systems, and advertising services. Recent advances in ANNS indexes make CPU a cost-effective choice for serving million-scale, in-memory vector search, yet per-core throughput remains constrained by memory access latency of vector reading and the compute intensity of distance evaluations in production deployments. With the growing scale of the business and advances in hardware, modern CCD-based multi-core CPUs have been widely deployed for high throughput in our services. However, we find that simply increasing core counts does not yield optimal performance scaling. To improve the efficiency of more cores from the CCD-based architecture, we analyze the distributions of real-world requests in our production environments. We observe high access locality in vector search in our online services and low cache utilization, resulting from overlooking the multi-chiplet nature of CCD based CPUs. Hence, we propose a workload- and hardware-aware thread orchestration framework at CCD-level that (i) provides a uniform interface for both inter-query parallel HNSW search and intra-query parallel IVF search, (ii) achieves cache-friendly and workload-adaptive mapping of task dispatching, and (iii) employs CCD-aware task stealing to address load imbalance. Applied to real production workloads from search, recommendation, and advertising services of Xiaohongshu (RedNote), our approach delivers up to 3.7x higher throughput and 30-90% reductions in P50 and P999 latency. In detail, compared with the original framework, the cache-miss ratio decreases by 6-30%, and the total CPU stall is reduced by 20-80%.
- Abstract(参考訳): ベクトル近傍探索(ANNS)は、検索エンジン、レコメンデーションシステム、広告サービスを支える。
ANNSインデックスの最近の進歩により、CPUは数百万スケールのインメモリベクトルサーチを行うためのコスト効率の高い選択肢となっているが、メモリアクセス遅延によるベクター読み取りと、プロダクションデプロイメントにおける距離評価の計算強度によって、コアごとのスループットが制限されている。
ビジネスの規模が拡大し、ハードウェアの進歩により、現代のCCDベースのマルチコアCPUは、私たちのサービスにおいて高いスループットのために広くデプロイされています。
しかし、単にコア数を増やすだけでは、最適なパフォーマンスのスケーリングが得られない。
CCDベースのアーキテクチャからより多くのコアの効率を改善するため、本運用環境における実世界の要求の分散を分析します。
オンラインサービスにおけるベクトル探索と低キャッシュ利用の高アクセスローカリティを観察し、CCDベースのCPUのマルチチップ性を見越す結果となった。
そこで本研究では,CCDレベルでの作業負荷およびハードウェア対応スレッドオーケストレーションフレームワークを提案する。
i) クエリ間並列HNSW検索とクエリ内並列IVF検索の両方に一様インタフェースを提供する。
(ii)タスクディスパッチのキャッシュフレンドリでワークロード対応のマッピングを実現し、
(iii)負荷不均衡に対処するためにCCD対応タスクステアリングを利用する。
Xiaohongshu(RedNote)の検索、レコメンデーション、広告サービスによる実運用ワークロードに適用すると、当社のアプローチは最大3.7倍のスループットとP50およびP999レイテンシの30-90%の削減を実現します。
詳しくは、元のフレームワークと比較してキャッシュミス比は6-30%減少し、CPU全体のストールは20-80%減少する。
関連論文リスト
- Evolutionary Mapping of Neural Networks to Spatial Accelerators [64.13809409887254]
ニューロモルフィック加速器のための最初の進化的ハードウェア・イン・ザ・ループマッピングフレームワークを紹介する。
我々は,2次元メッシュに152コアを配置した空間加速器であるIntel Loihi 2のアプローチを評価した。
提案手法は,2つのスパース多層パーセプトロンネットワーク上でのデフォルトコアと比較して,最大35%のレイテンシ削減を実現している。
論文 参考訳(メタデータ) (2026-02-04T16:28:08Z) - Primitive-Driven Acceleration of Hyperdimensional Computing for Real-Time Image Classification [0.07646713951724012]
局所的な画像パッチを空間情報に富んだハイパーベクターにマッピングする画像符号化アルゴリズムを開発した。
これらのパッチレベルのハイパーベクターは、基本HDC演算を用いてグローバル表現にマージされる。
このエンコーダは、MNISTで95.67%、Fashion-MNISTで85.14%の精度を達成し、HDCベースの画像エンコーダよりも優れていた。
論文 参考訳(メタデータ) (2026-01-27T21:12:56Z) - LACONIC: Dense-Level Effectiveness for Scalable Sparse Retrieval via a Two-Phase Training Curriculum [73.82125917416067]
LACONICは、Llama-3アーキテクチャに基づく学習されたスパースレトリバーのファミリーである。
8Bの派生型はMTEB Retrievalベンチマークで最先端の60.2 nDCGを達成し、リーダーボードで15位となった。
論文 参考訳(メタデータ) (2026-01-04T22:42:20Z) - KScaNN: Scalable Approximate Nearest Neighbor Search on Kunpeng [46.35664429179457]
既存のx86 ANNSアルゴリズムをARMプラットフォームに移植すると、性能が大幅に低下する。
我々は、Kunpeng 920 ARMアーキテクチャ用に設計された新しいANNSアルゴリズムであるKScaNNを紹介する。
論文 参考訳(メタデータ) (2025-11-05T09:01:32Z) - Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures [3.2645124275315163]
大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。
本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システムにおける推論挙動の詳細な解析を行う。
論文 参考訳(メタデータ) (2025-04-16T04:02:39Z) - FusionANNS: An Efficient CPU/GPU Cooperative Processing Architecture for Billion-scale Approximate Nearest Neighbor Search [9.724743360108835]
近似近接探索(ANNS)がデータベースとAIインフラストラクチャの重要なコンポーネントとして登場した。
数十億のデータセットを対象とした高スループット,低レイテンシ,低コスト,高精度なANNSシステムであるFusionANNSを提案する。
本稿では、CPUとGPU間のデータスワップを回避するための多層インデックス化、不要なI/Oや計算をなくすための再ランク付け、I/O効率をさらに向上するための冗長なI/Oデデューズという3つの新しい設計を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:14:01Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - NPAS: A Compiler-aware Framework of Unified Network Pruning and
Architecture Search for Beyond Real-Time Mobile Acceleration [48.25487285358816]
異なるDNNと異なるプルーニングスキームをサポートするコンパイラ自動コード生成フレームワークを提案する。
また,NPAS,コンパイラ対応統合ネットワークプルーニング,アーキテクチャ検索を提案する。
我々のフレームワークは,市販携帯電話でそれぞれ78.2%,75%(MobileNet-V3レベル),71%(MobileNet-V2レベル)のTop-1精度で6.7ms,5.9ms,3.9msのImageNet推論時間を実現している。
論文 参考訳(メタデータ) (2020-12-01T16:03:40Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。