論文の概要: A Real-Time Adaptive Multi-Stream GPU System for Online Approximate Nearest Neighborhood Search
- arxiv url: http://arxiv.org/abs/2408.02937v2
- Date: Wed, 06 Nov 2024 02:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 19:50:48.412156
- Title: A Real-Time Adaptive Multi-Stream GPU System for Online Approximate Nearest Neighborhood Search
- Title(参考訳): オンライン近似近傍探索のためのリアルタイム適応型マルチストリームGPUシステム
- Authors: Yiping Sun, Yang Shi, Jiaolong Du,
- Abstract要約: RTAMS-GANNS(Real-Time Adaptive Multi-Stream GPU ANNS System)を提案する。
私たちのアーキテクチャはその目的を3つの重要な進歩を通して達成します。
提案システムは実世界の産業検索やレコメンデーションシステムにも展開されており、毎日数億人のユーザーにサービスを提供している。
- 参考スコア(独自算出の注目度): 3.116913746878115
- License:
- Abstract: In recent years, Approximate Nearest Neighbor Search (ANNS) has played a pivotal role in modern search and recommendation systems, especially in emerging LLM applications like Retrieval-Augmented Generation. There is a growing exploration into harnessing the parallel computing capabilities of GPUs to meet the substantial demands of ANNS. However, existing systems primarily focus on offline scenarios, overlooking the distinct requirements of online applications that necessitate real-time insertion of new vectors. This limitation renders such systems inefficient for real-world scenarios. Moreover, previous architectures struggled to effectively support real-time insertion due to their reliance on serial execution streams. In this paper, we introduce a novel Real-Time Adaptive Multi-Stream GPU ANNS System (RTAMS-GANNS). Our architecture achieves its objectives through three key advancements: 1) We initially examined the real-time insertion mechanisms in existing GPU ANNS systems and discovered their reliance on repetitive copying and memory allocation, which significantly hinders real-time effectiveness on GPUs. As a solution, we introduce a dynamic vector insertion algorithm based on memory blocks, which includes in-place rearrangement. 2) To enable real-time vector insertion in parallel, we introduce a multi-stream parallel execution mode, which differs from existing systems that operate serially within a single stream. Our system utilizes a dynamic resource pool, allowing multiple streams to execute concurrently without additional execution blocking. 3) Through extensive experiments and comparisons, our approach effectively handles varying QPS levels across different datasets, reducing latency by up to 40%-80%. The proposed system has also been deployed in real-world industrial search and recommendation systems, serving hundreds of millions of users daily, and has achieved good results.
- Abstract(参考訳): 近年,最近の検索・レコメンデーションシステム,特に検索・拡張ジェネレーションのような新興LLMアプリケーションにおいて,ANNS (Approximate Nearest Neighbor Search) が重要な役割を担っている。
ANNSの実質的な要求を満たすため、GPUの並列コンピューティング能力を活用するための調査が増えている。
しかし、既存のシステムはオフラインのシナリオに重点を置いており、新しいベクトルをリアルタイムに挿入する必要があるオンラインアプリケーションの明確な要件を見落としている。
この制限により、そのようなシステムは現実世界のシナリオでは非効率になる。
さらに、以前のアーキテクチャはシリアル実行ストリームに依存するため、リアルタイムの挿入を効果的にサポートするのに苦労していた。
本稿では,RTAMS-GANNS(Real-Time Adaptive Multi-Stream GPU ANNS System)を提案する。
私たちのアーキテクチャはその目的を3つの重要な進歩を通して達成します。
1) 既存のGPUANNSシステムにおけるリアルタイム挿入機構について検討し, 繰り返しコピーとメモリ割り当てに依存することを発見した。
そこで本研究では,メモリブロックに基づく動的ベクトル挿入アルゴリズムを提案する。
2) 実時間ベクトル挿入を並列に行うために,マルチストリーム並列実行モードを導入する。
システムでは動的リソースプールを利用し、複数のストリームを同時に実行することが可能で、追加の実行ブロッキングが不要である。
3) 広範囲な実験と比較により, 提案手法は, 異なるデータセットにわたる様々なQPSレベルを効果的に処理し, レイテンシを最大40%-80%削減する。
提案システムは,産業用検索・レコメンデーションシステムにも導入されており,毎日数億人のユーザが利用でき,良好な成果を上げている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies [0.0]
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-10-24T22:09:03Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - GPU-Accelerated Machine Learning in Non-Orthogonal Multiple Access [71.58925117604039]
非直交多重アクセス(Noma)は、将来の5Gおよび6Gネットワークに必要な大規模な接続を可能にする興味深い技術である。
線形処理と非線形処理の両方の利点を組み合わせたニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-13T09:38:23Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Scaled-Time-Attention Robust Edge Network [2.4417312983418014]
本稿では,貯水池型ニューラルネットワークの遅延ループバージョンに基づいて,ニューラルネットワークの新たなファミリーを構築するための体系的なアプローチについて述べる。
結果として得られたアーキテクチャは、STARE(Scaled-Time-Attention Robust Edge)ネットワークと呼ばれ、超次元空間と非乗算演算を利用する。
我々は、STAREがパフォーマンスを改善し、実装の複雑さを低減した様々なアプリケーションに適用可能であることを実証した。
論文 参考訳(メタデータ) (2021-07-09T21:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。