論文の概要: Faster Distributed Inference-Only Recommender Systems via Bounded Lag Synchronous Collectives
- arxiv url: http://arxiv.org/abs/2512.19342v1
- Date: Mon, 22 Dec 2025 12:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.750966
- Title: Faster Distributed Inference-Only Recommender Systems via Bounded Lag Synchronous Collectives
- Title(参考訳): 境界ラグ同期コレクタによる高速分散推論専用レコメンダシステム
- Authors: Kiril Dichev, Filip Pawlowski, Albert-Jan Yzelman,
- Abstract要約: 推論のみのディープラーニング推奨モデル(DLRM)は、この分野におけるデファクト標準である。
DLRM推論の主なボトルネックは、巨大な埋め込みテーブル間のスパース機能のルックアップである。
本稿では,Alltoallv操作のBLS(bounded lag synchronous)バージョンを提案する。
- 参考スコア(独自算出の注目度): 0.2752817022620644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recommender systems are enablers of personalized content delivery, and therefore revenue, for many large companies. In the last decade, deep learning recommender models (DLRMs) are the de-facto standard in this field. The main bottleneck in DLRM inference is the lookup of sparse features across huge embedding tables, which are usually partitioned across the aggregate RAM of many nodes. In state-of-the-art recommender systems, the distributed lookup is implemented via irregular all-to-all (alltoallv) communication, and often presents the main bottleneck. Today, most related work sees this operation as a given; in addition, every collective is synchronous in nature. In this work, we propose a novel bounded lag synchronous (BLS) version of the alltoallv operation. The bound can be a parameter allowing slower processes to lag behind entire iterations before the fastest processes block. In special applications such as inference-only DLRM, the accuracy of the application is fully preserved. We implement BLS alltoallv in a new PyTorch Distributed backend and evaluate it with a BLS version of the reference DLRM code. We show that for well balanced, homogeneous-access DLRM runs our BLS technique does not offer notable advantages. But for unbalanced runs, e.g. runs with strongly irregular embedding table accesses or with delays across different processes, our BLS technique improves both the latency and throughput of inference-only DLRM. In the best-case scenario, the proposed reduced synchronisation can mask the delays across processes altogether.
- Abstract(参考訳): レコメンダシステムは、パーソナライズされたコンテンツ配信の実現者であり、多くの大企業にとって収益である。
過去10年間では、ディープラーニング推奨モデル(DLRM)がこの分野におけるデファクトスタンダードとなっている。
DLRM推論の主なボトルネックは、多くのノードの集約RAM間で分割される巨大な埋め込みテーブル間のスパース機能のルックアップである。
最先端のレコメンデータシステムでは、分散ルックアップは不規則なオール・ツー・オール(オール・オール)通信によって実装され、しばしば主要なボトルネックとなる。
今日、ほとんどの関連する研究は、この操作を与えられたものとみなしており、また、全ての集合は自然に同期している。
本稿では,Alltoallv操作のBLS(bounded lag synchronous)バージョンを提案する。
バウンダリはパラメータであり、最も速いプロセスブロックの前に、遅いプロセスがイテレーション全体を遅れることを可能にする。
推論専用DLRMのような特殊なアプリケーションでは、アプリケーションの正確性は完全に保存されている。
我々は、新しいPyTorch DistributedバックエンドにBLS alltoallvを実装し、参照DLRMコードのBLSバージョンで評価する。
バランスがよく均質なDLRMでは,BLS技術が有効でないことを示す。
しかし、不均衡な実行の場合、例えば、強い不規則な埋め込みテーブルアクセスや、異なるプロセス間での遅延で実行することで、私たちのBLS技術は、推論のみのDLRMのレイテンシとスループットの両方を改善します。
ベストケースのシナリオでは、提案された同期の削減はプロセス間での遅延を完全に隠蔽することができる。
関連論文リスト
- CycleSL: Server-Client Cyclical Update Driven Scalable Split Learning [60.59553507555341]
本稿では,新たなアグリゲーションフリーな分割学習フレームワークであるCycleSLを紹介する。
ブロック座標降下の交互化によって着想を得たCycleSLは、サーバサイドトレーニングを独立した高レベルの機械学習タスクとして扱う。
実験結果から,CycleSLのモデル性能向上効果が示唆された。
論文 参考訳(メタデータ) (2025-11-23T21:00:21Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance [34.695803671702606]
小言語モデル(SLM)はリソース制約のあるエッジデバイスへの効率的なデプロイをサポートするが、その限られた能力は推論性能を損なう。
Retrieval-augmented Generation(RAG)は、デバイス上でのモデル再トレーニングを必要とせずに、外部データベースを統合することによってモデルパフォーマンスを向上させるための有望なソリューションである。
文書のプライバシーを漏洩させることなく、一般知識と個人知識の両方を通じてデバイス上のSLMを強化する分散RAGフレームワークであるDRAGONを提案する。
論文 参考訳(メタデータ) (2025-04-15T13:53:08Z) - Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch [66.84195842685459]
大規模言語モデル(LLM)のトレーニングは通常、トレーニング時間を短縮するために、多数のアクセラレータに分散される。
近年、DiLoCoのような分散アルゴリズムはそのようなコロケーション制約を緩和している。
我々は、数十億のパラメータのトレーニングを分散し、以前と同じような品質に到達できることを実験的に示す。
論文 参考訳(メタデータ) (2025-01-30T17:23:50Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - Shadowheart SGD: Distributed Asynchronous SGD with Optimal Time Complexity Under Arbitrary Computation and Communication Heterogeneity [85.92481138826949]
我々は,従来の集中型手法の時間的複雑さを確実に改善する新しい手法であるShadowheart SGDを開発した。
また、サーバからワーカーへのブロードキャストが無視できない双方向設定も検討し、対応する方法を開発した。
論文 参考訳(メタデータ) (2024-02-07T12:15:56Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。