Fugu-MT 論文翻訳(概要): SilverTorch: A Unified Model-based System to Democratize Large-Scale Recommendation on GPUs

論文の概要: SilverTorch: A Unified Model-based System to Democratize Large-Scale Recommendation on GPUs

arxiv url: http://arxiv.org/abs/2511.14881v1
Date: Tue, 18 Nov 2025 20:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-20 15:51:28.511387
Title: SilverTorch: A Unified Model-based System to Democratize Large-Scale Recommendation on GPUs
Title（参考訳）: SilverTorch:GPU上の大規模レコメンデーションを民主化する統一モデルベースシステム
Authors: Bi Xue, Hong Wu, Lei Chen, Chao Yang, Yiming Ma, Fei Ding, Zhen Wang, Liang Wang, Xiaoheng Mao, Ke Huang, Xialu Li, Peng Xia, Rui Jian, Yanli Zhao, Yanzun Huang, Yijie Deng, Harry Tran, Ryan Chang, Min Yu, Eric Dong, Jiazhou Wang, Qianqian Zhang, Keke Zhai, Hongzhang Yin, Pawel Garbacki, Zheng Fang, Yiyi Pan, Min Ni, Yang Liu,
Abstract要約: SilverTorchはGPU上でレコメンデーションモデルを提供するモデルベースのシステムである。 SilverTorchは、スタンドアロンのインデックス付けとフィルタリングサービスを、サーブされたモデルのレイヤに置き換えることで、モデルサービスを統合する。 SilverTorchは、主要製品全体で数百以上のモデルをオンラインで提供し、毎日何十億ものアクティブユーザー向けにコンテンツを推奨している。
参考スコア（独自算出の注目度）: 20.85402800177806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Serving deep learning based recommendation models (DLRM) at scale is challenging. Existing systems rely on CPU-based ANN indexing and filtering services, suffering from non-negligible costs and forgoing joint optimization opportunities. Such inefficiency makes them difficult to support more complex model architectures, such as learned similarities and multi-task retrieval. In this paper, we propose SilverTorch, a model-based system for serving recommendation models on GPUs. SilverTorch unifies model serving by replacing standalone indexing and filtering services with layers of served models. We propose a Bloom index algorithm on GPUs for feature filtering and a tensor-native fused Int8 ANN kernel on GPUs for nearest neighbor search. We further co-design the ANN search index and filtering index to reduce GPU memory utilization and eliminate unnecessary computation. Benefit from SilverTorch's serving paradigm, we introduce a OverArch scoring layer and a Value Model to aggregate results across multi-tasks. These advancements improve the accuracy for retrieval and enable future studies for serving more complex models. For ranking, SilverTorch's design accelerates item embedding calculation by caching the pre-calculated embeddings inside the serving model. Our evaluation on the industry-scale datasets show that SilverTorch achieves up to 5.6x lower latency and 23.7x higher throughput compared to the state-of-the-art approaches. We also demonstrate that SilverTorch's solution is 13.35x more cost-efficient than CPU-based solution while improving accuracy via serving more complex models. SilverTorch serves over hundreds of models online across major products and recommends contents for billions of daily active users.
Abstract（参考訳）: ディープラーニングベースのレコメンデーションモデル(DLRM)を大規模に実行することは難しい。既存のシステムはCPUベースのANNインデックスとフィルタリングサービスに依存しており、無視できないコストと共同最適化の機会に悩まされている。このような非効率性は、学習された類似性やマルチタスク検索など、より複雑なモデルアーキテクチャをサポートするのを難しくする。本稿では,GPU上でレコメンデーションモデルを提供するモデルベースシステムであるSilverTorchを提案する。 SilverTorchは、スタンドアロンのインデックス付けとフィルタリングサービスを、サーブされたモデルのレイヤに置き換えることで、モデルサービスを統合する。特徴フィルタリングのためのGPU上のブルームインデックスアルゴリズムと近接探索のためのGPU上のテンソルネイティブフューズしたInt8 ANNカーネルを提案する。さらに、ANN検索インデックスとフィルタリングインデックスを共同設計し、GPUメモリの利用を減らし、不要な計算を不要にする。 SilverTorchのサービスパラダイムの恩恵を受けながら、マルチタスクで結果を集約するOverArchスコアリング層とバリューモデルを導入します。これらの進歩は、検索の精度を改善し、より複雑なモデルを提供するための将来の研究を可能にする。ランク付けのために、SilverTorchの設計は、サービスモデル内の計算済みの埋め込みをキャッシュすることで、アイテムの埋め込み計算を高速化する。業界規模のデータセットに対する我々の評価は、SilverTorchが最先端のアプローチと比較して最大5.6倍のレイテンシと23.7倍のスループットを実現していることを示している。また、SilverTorchのソリューションはCPUベースのソリューションよりも13.35倍コスト効率が高く、より複雑なモデルを提供することで精度を向上することを示した。 SilverTorchは、主要製品全体で数百以上のモデルをオンラインで提供し、毎日何十億ものアクティブユーザー向けにコンテンツを推奨している。

論文の概要: SilverTorch: A Unified Model-based System to Democratize Large-Scale Recommendation on GPUs

関連論文リスト