論文の概要: SilverTorch: A Unified Model-based System to Democratize Large-Scale Recommendation on GPUs
- arxiv url: http://arxiv.org/abs/2511.14881v1
- Date: Tue, 18 Nov 2025 20:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.511387
- Title: SilverTorch: A Unified Model-based System to Democratize Large-Scale Recommendation on GPUs
- Title(参考訳): SilverTorch:GPU上の大規模レコメンデーションを民主化する統一モデルベースシステム
- Authors: Bi Xue, Hong Wu, Lei Chen, Chao Yang, Yiming Ma, Fei Ding, Zhen Wang, Liang Wang, Xiaoheng Mao, Ke Huang, Xialu Li, Peng Xia, Rui Jian, Yanli Zhao, Yanzun Huang, Yijie Deng, Harry Tran, Ryan Chang, Min Yu, Eric Dong, Jiazhou Wang, Qianqian Zhang, Keke Zhai, Hongzhang Yin, Pawel Garbacki, Zheng Fang, Yiyi Pan, Min Ni, Yang Liu,
- Abstract要約: SilverTorchはGPU上でレコメンデーションモデルを提供するモデルベースのシステムである。
SilverTorchは、スタンドアロンのインデックス付けとフィルタリングサービスを、サーブされたモデルのレイヤに置き換えることで、モデルサービスを統合する。
SilverTorchは、主要製品全体で数百以上のモデルをオンラインで提供し、毎日何十億ものアクティブユーザー向けにコンテンツを推奨している。
- 参考スコア(独自算出の注目度): 20.85402800177806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serving deep learning based recommendation models (DLRM) at scale is challenging. Existing systems rely on CPU-based ANN indexing and filtering services, suffering from non-negligible costs and forgoing joint optimization opportunities. Such inefficiency makes them difficult to support more complex model architectures, such as learned similarities and multi-task retrieval. In this paper, we propose SilverTorch, a model-based system for serving recommendation models on GPUs. SilverTorch unifies model serving by replacing standalone indexing and filtering services with layers of served models. We propose a Bloom index algorithm on GPUs for feature filtering and a tensor-native fused Int8 ANN kernel on GPUs for nearest neighbor search. We further co-design the ANN search index and filtering index to reduce GPU memory utilization and eliminate unnecessary computation. Benefit from SilverTorch's serving paradigm, we introduce a OverArch scoring layer and a Value Model to aggregate results across multi-tasks. These advancements improve the accuracy for retrieval and enable future studies for serving more complex models. For ranking, SilverTorch's design accelerates item embedding calculation by caching the pre-calculated embeddings inside the serving model. Our evaluation on the industry-scale datasets show that SilverTorch achieves up to 5.6x lower latency and 23.7x higher throughput compared to the state-of-the-art approaches. We also demonstrate that SilverTorch's solution is 13.35x more cost-efficient than CPU-based solution while improving accuracy via serving more complex models. SilverTorch serves over hundreds of models online across major products and recommends contents for billions of daily active users.
- Abstract(参考訳): ディープラーニングベースのレコメンデーションモデル(DLRM)を大規模に実行することは難しい。
既存のシステムはCPUベースのANNインデックスとフィルタリングサービスに依存しており、無視できないコストと共同最適化の機会に悩まされている。
このような非効率性は、学習された類似性やマルチタスク検索など、より複雑なモデルアーキテクチャをサポートするのを難しくする。
本稿では,GPU上でレコメンデーションモデルを提供するモデルベースシステムであるSilverTorchを提案する。
SilverTorchは、スタンドアロンのインデックス付けとフィルタリングサービスを、サーブされたモデルのレイヤに置き換えることで、モデルサービスを統合する。
特徴フィルタリングのためのGPU上のブルームインデックスアルゴリズムと近接探索のためのGPU上のテンソルネイティブフューズしたInt8 ANNカーネルを提案する。
さらに、ANN検索インデックスとフィルタリングインデックスを共同設計し、GPUメモリの利用を減らし、不要な計算を不要にする。
SilverTorchのサービスパラダイムの恩恵を受けながら、マルチタスクで結果を集約するOverArchスコアリング層とバリューモデルを導入します。
これらの進歩は、検索の精度を改善し、より複雑なモデルを提供するための将来の研究を可能にする。
ランク付けのために、SilverTorchの設計は、サービスモデル内の計算済みの埋め込みをキャッシュすることで、アイテムの埋め込み計算を高速化する。
業界規模のデータセットに対する我々の評価は、SilverTorchが最先端のアプローチと比較して最大5.6倍のレイテンシと23.7倍のスループットを実現していることを示している。
また、SilverTorchのソリューションはCPUベースのソリューションよりも13.35倍コスト効率が高く、より複雑なモデルを提供することで精度を向上することを示した。
SilverTorchは、主要製品全体で数百以上のモデルをオンラインで提供し、毎日何十億ものアクティブユーザー向けにコンテンツを推奨している。
関連論文リスト
- NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - LiNR: Model Based Neural Retrieval on GPUs at LinkedIn [7.7977551402289045]
LiNRはLinkedInの大規模GPUベースの検索システムである。
大規模なインデックスに対して,フルスキャンと効率的なフィルタリングを取り入れたシステム拡張について述べる。
我々は、LiNRが業界初のLive-updated model-based search indexの1つであると考えている。
論文 参考訳(メタデータ) (2024-07-18T07:04:33Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。