論文の概要: MSN: A Memory-based Sparse Activation Scaling Framework for Large-scale Industrial Recommendation
- arxiv url: http://arxiv.org/abs/2602.07526v1
- Date: Sat, 07 Feb 2026 12:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.669276
- Title: MSN: A Memory-based Sparse Activation Scaling Framework for Large-scale Industrial Recommendation
- Title(参考訳): MSN: 大規模産業レコメンデーションのためのメモリベーススパースアクティベーションスケーリングフレームワーク
- Authors: Shikang Wu, Hui Lu, Jinqiu Jin, Zheng Chai, Shiyong Hong, Junjie Zhang, Shanlei Mu, Kaiyuan Ma, Tianyi Liu, Yuchao Zheng, Zhe Wang, Jingjian Lin,
- Abstract要約: メモリベースのスパースアクティベーションスケーリングフレームワークMSNを提案する。
MSNは大きなパラメータ化されたメモリからパーソナライズされた表現を検索し、下流の機能相互作用モジュールに統合する。
MSNは、高い効率を維持しながら、リコメンデーション性能を継続的に改善する。
- 参考スコア(独自算出の注目度): 19.132874291460936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling deep learning recommendation models is an effective way to improve model expressiveness. Existing approaches often incur substantial computational overhead, making them difficult to deploy in large-scale industrial systems under strict latency constraints. Recent sparse activation scaling methods, such as Sparse Mixture-of-Experts, reduce computation by activating only a subset of parameters, but still suffer from high memory access costs and limited personalization capacity due to the large size and small number of experts. To address these challenges, we propose MSN, a memory-based sparse activation scaling framework for recommendation models. MSN dynamically retrieves personalized representations from a large parameterized memory and integrates them into downstream feature interaction modules via a memory gating mechanism, enabling fine-grained personalization with low computational overhead. To enable further expansion of the memory capacity while keeping both computational and memory access costs under control, MSN adopts a Product-Key Memory (PKM) mechanism, which factorizes the memory retrieval complexity from linear time to sub-linear complexity. In addition, normalization and over-parameterization techniques are introduced to maintain balanced memory utilization and prevent memory retrieval collapse. We further design customized Sparse-Gather operator and adopt the AirTopK operator to improve training and inference efficiency in industrial settings. Extensive experiments demonstrate that MSN consistently improves recommendation performance while maintaining high efficiency. Moreover, MSN has been successfully deployed in the Douyin Search Ranking System, achieving significant gains over deployed state-of-the-art models in both offline evaluation metrics and large-scale online A/B test.
- Abstract(参考訳): ディープラーニングレコメンデーションモデルをスケールすることは、モデル表現性を改善する効果的な方法である。
既存のアプローチはしばしば計算上のオーバーヘッドを発生させ、厳密なレイテンシ制約の下で大規模産業システムに展開することが困難になる。
Sparse Mixture-of-Expertsのような近年のスパースアクティベーションスケーリング手法は、パラメータのサブセットのみをアクティベートすることで計算を削減しているが、大きなサイズと少数の専門家によるメモリアクセスコストとパーソナライズ能力の制限に悩まされている。
これらの課題に対処するため、リコメンデーションモデルのためのメモリベースのスパースアクティベーションスケーリングフレームワークMSNを提案する。
MSNは、大きなパラメータ化されたメモリからパーソナライズされた表現を動的に取り出し、メモリゲーティング機構を介して下流の特徴的相互作用モジュールに統合し、計算オーバーヘッドの少ない微細なパーソナライズを可能にする。
計算アクセスコストとメモリアクセスコストの両方を制御しながらメモリ容量のさらなる拡張を可能にするため、MSNはPKM(Product-Key Memory)メカニズムを採用する。
さらに、バランスの取れたメモリ利用を維持し、メモリ回復の崩壊を防止するために、正規化と過パラメータ化技術を導入している。
我々はさらに、Sparse-Gatherオペレータをカスタマイズし、AirTopKオペレータを採用して、産業環境でのトレーニングと推論効率を向上させる。
大規模な実験により、MSNは高い効率を維持しながらレコメンデーション性能を一貫して改善することが示された。
さらに、MSNはDouyin Search Ranking Systemにデプロイされ、オフライン評価メトリクスと大規模オンラインA/Bテストの両方において、デプロイされた最先端モデルよりも大幅に向上した。
関連論文リスト
- MALLOC: Benchmarking the Memory-aware Long Sequence Compression for Large Sequential Recommendation [84.53415999381203]
MALLOCは、メモリを意識したロングシーケンス圧縮のベンチマークである。
最先端のレコメンデータに統合され、再現性と評価のプラットフォームを可能にする。
論文 参考訳(メタデータ) (2026-01-28T04:11:50Z) - Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference [8.296993547783808]
ExpertFlowは、適応型エキスパートプリフェッチとキャッシュ対応ルーティングを組み合わせた、MoE推論のためのランタイムシステムである。
我々の評価では、ExpertFlowはモデルストール時間をベースラインの0.1%未満に短縮する。
論文 参考訳(メタデータ) (2025-10-30T17:29:27Z) - OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training [13.814101909348183]
Pipeline(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張する標準的なテクニックになっている。
本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。
本稿では, メモリ容量, アクティベーション再利用, パイプラインバブル最小化を両立させる制約付き最適化問題としてスケジューリングを定式化する。
論文 参考訳(メタデータ) (2025-10-06T01:06:33Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。