論文の概要: Near-Zero-Overhead Freshness for Recommendation Systems via Inference-Side Model Updates
- arxiv url: http://arxiv.org/abs/2512.12295v2
- Date: Wed, 17 Dec 2025 04:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 15:03:26.990199
- Title: Near-Zero-Overhead Freshness for Recommendation Systems via Inference-Side Model Updates
- Title(参考訳): 推論側モデル更新によるレコメンデーションシステムのニアゼロ・オーバーヘッド鮮度
- Authors: Wenjun Yu, Sitian Chen, Cheng Chen, Amelie Chi Zhou,
- Abstract要約: DLRM(Deep Learning Recommendation Models)は、パーソナライズされたサービスを支えるものだが、大量のパラメータの同期オーバーヘッドのため、重要なフレッシュネスと精度のトレードオフに直面している。
本稿では,Low-Rank Adaptation (LoRA) トレーナーを推論ノード内に配置することでクラスタ間同期を解消するシステムであるLiveUpdateを提案する。
LiveUpdateは、最先端のデルタ更新メソッドを0.04%から0.24%精度で上回りながら、オンラインモデルのアップデートを提供する。
- 参考スコア(独自算出の注目度): 9.808497428240946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning Recommendation Models (DLRMs) underpin personalized services but face a critical freshness-accuracy tradeoff due to massive parameter synchronization overheads. Production DLRMs deploy decoupled training/inference clusters, where synchronizing petabyte-scale embedding tables (EMTs) causes multi-minute staleness, degrading recommendation quality and revenue. We observe that (1) inference nodes exhibit sustained CPU underutilization (peak <= 20%), and (2) EMT gradients possess intrinsic low-rank structure, enabling compact update representation. We present LiveUpdate, a system that eliminates inter-cluster synchronization by colocating Low-Rank Adaptation (LoRA) trainers within inference nodes. LiveUpdate addresses two core challenges: (1) dynamic rank adaptation via singular value monitoring to constrain memory overhead (<2% of EMTs), and (2) NUMA-aware resource scheduling with hardware-enforced QoS to eliminate update inference contention (P99 latency impact <20ms). Evaluations show LiveUpdate reduces update costs by 2x versus delta-update baselines while achieving higher accuracy within 1-hour windows. By transforming idle inference resources into freshness engines, LiveUpdate delivers online model updates while outperforming state-of-the-art delta-update methods by 0.04% to 0.24% in accuracy.
- Abstract(参考訳): DLRM(Deep Learning Recommendation Models)は、パーソナライズされたサービスを支えるものだが、大量のパラメータの同期オーバーヘッドのため、重要なフレッシュネスと精度のトレードオフに直面している。
DLRMは分離されたトレーニング/推論クラスタをデプロイし、ペタバイト規模の埋め込みテーブル(EMT)を同期させることで、複数分間の安定化、推奨品質と収益の低下を引き起こす。
我々は,(1)推論ノードが持続的CPU不利用(約20%)を示し,(2)EMT勾配が固有の低ランク構造を持ち,コンパクトな更新表現を可能にすることを観察した。
本稿では,Low-Rank Adaptation (LoRA) トレーナーを推論ノード内に配置することでクラスタ間同期を解消するシステムであるLiveUpdateを提案する。
LiveUpdateは、(1)特異値監視による動的ランク付けによるメモリオーバーヘッドの制限(ETTの2%)と(2)ハードウェア強化QoSによるNUMA対応リソーススケジューリング(P99遅延の影響<20ms)の2つの課題に対処する。
評価によると、LiveUpdateはアップデートのコストをデルタ更新ベースラインに対して2倍削減し、1時間のウィンドウ内で高い精度を実現している。
アイドル推論リソースを新鮮度エンジンに変換することで、LiveUpdateはオンラインモデルのアップデートを提供し、最先端のデルタ更新メソッドを0.04%から0.24%の精度で上回っている。
関連論文リスト
- Reviving Stale Updates: Data-Free Knowledge Distillation for Asynchronous Federated Learning [28.983471880773305]
Federated Learning (FL)は、生データを共有せずに、分散クライアント間で協調的なモデルトレーニングを可能にする。
AFL(Asynchronous Federated Learning)は、クライアントが独立して通信できるようにすることによってこの問題を軽減する。
我々は、データフリー知識蒸留(DFKD)を通じて古い更新を復活させる非同期FLフレームワークであるFedReviveを提案する。
論文 参考訳(メタデータ) (2025-11-01T18:35:20Z) - Sig2Model: A Boosting-Driven Model for Updatable Learned Indexes [6.133666849556217]
Sig2Modelは効率的で適応的な学習指標であり、3つの主要な手法による再学習コストを最小限に抑える。
Sig2Modelは、トレーニングコストを最大20倍に削減し、最大3倍高いQPSを実現し、最大1000倍のメモリを使用する。
論文 参考訳(メタデータ) (2025-09-25T06:07:13Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Straggler-Resilient Decentralized Learning via Adaptive Asynchronous Updates [28.813671194939225]
完全に分散化された最適化手法は、人気のあるパラメータサーバフレームワークに代わるものとして提唱されている。
本稿では、各労働者が通信する近隣労働者の数を適応的に決定することで、適応的な非同期更新を施した完全に分散化されたアルゴリズムを提案する。
DSGD-AAUは収束の線形高速化を実現し,その有効性を示す。
論文 参考訳(メタデータ) (2023-06-11T02:08:59Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z) - Edge Continual Learning for Dynamic Digital Twins over Wireless Networks [68.65520952712914]
デジタルツイン(DT)は、現実世界とメタバースの間の重要なリンクを構成する。
本稿では,物理的双生児とそれに対応するサイバー双生児の親和性を正確にモデル化する新しいエッジ連続学習フレームワークを提案する。
提案するフレームワークは,破滅的忘れ込みに対して頑健な,高精度かつ同期的なCTモデルを実現する。
論文 参考訳(メタデータ) (2022-04-10T23:25:37Z) - Adaptive Differential Filters for Fast and Communication-Efficient
Federated Learning [12.067586493399308]
フェデレートラーニング(FL)シナリオは、クライアントとサーバ間で頻繁にニューラルネットワークのアップデートを送信することによって、大きな通信オーバーヘッドを生成する。
本稿では,FLプロセスのスパース更新を補う畳み込みフィルタの粒度で動作する新しいスケーリング手法を提案する。
提案手法は, より高速に収束し, 送信データの総量を最大377倍に削減しながら, 中央サーバモデルの性能を向上させる。
論文 参考訳(メタデータ) (2022-04-09T08:23:25Z) - Distribution-sensitive Information Retention for Accurate Binary Neural
Network [49.971345958676196]
本稿では、前向きのアクティベーションと後向きの勾配の情報を保持するために、新しいDIR-Net(Distribution-sensitive Information Retention Network)を提案する。
我々のDIR-Netは、主流かつコンパクトなアーキテクチャの下で、SOTAバイナライゼーションアプローチよりも一貫して優れています。
我々は、実世界のリソース制限されたデバイス上でDIR-Netを行い、ストレージの11.1倍の節約と5.4倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2021-09-25T10:59:39Z) - Over-the-Air Federated Learning from Heterogeneous Data [107.05618009955094]
フェデレートラーニング(Federated Learning、FL)は、集中型モデルの分散ラーニングのためのフレームワークである。
我々は,共通局所勾配勾配勾配(SGD)FLアルゴリズムを強化するコンバージェント OTA FL (COTAF) アルゴリズムを開発した。
我々は,COTAFにより誘導されるプリコーディングが,OTA FLを用いて訓練されたモデルの収束率と精度を顕著に向上させることを示す。
論文 参考訳(メタデータ) (2020-09-27T08:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。