論文の概要: TurboGR: An Accelerated Training System for Large-Scale Generative Recommendation
- arxiv url: http://arxiv.org/abs/2605.13433v1
- Date: Wed, 13 May 2026 12:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.039735
- Title: TurboGR: An Accelerated Training System for Large-Scale Generative Recommendation
- Title(参考訳): TurboGR:大規模生成レコメンデーションのための高速化トレーニングシステム
- Authors: Huichao Chai, Zhixin Wu, Xuemiao Li, Shiqing Fan, Hengfeng Wang, Maojun Peng, Lu Xu, Yaoyuan Wang, Yibo Jin, Wei Guo, Yongxiang Feng,
- Abstract要約: ジェネレーティブレコメンデーション(GR)は、断片化されたシナリオ固有のアーキテクチャをトランスフォーマーベースの統一モデルに置き換える、有望なパラダイムとして登場した。
Ascend NPU上でGRを大規模にデプロイすることは、システムレベルの根本的な課題に直面します。
生成推薦のためのアセンド・アフィニティ・トレーニング・システムであるモデルを提案する。
- 参考スコア(独自算出の注目度): 9.645364292862624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative recommendation (GR) has emerged as a promising paradigm that replaces fragmented, scenario-specific architectures with unified Transformer-based models, exhibiting scaling-law behavior where recommendation quality improves systematically with increased model capacity and training data. However, deploying GR at scale on Ascend NPUs faces fundamental system-level challenges. These challenges are further exacerbated on Ascend NPUs due to the absence of high-performance implementations for jagged operators and the architectural mismatch between irregular sparse primitives and NPU's dense-computation-optimized design. In this paper, we present \model, an Ascend-affinity training system for generative recommendation that systematically addresses these bottlenecks through three core innovations: (i) Ascend-affinity jagged acceleration, including fusion operators that eliminate padding redundancy and dynamic load balancing that reduces inter-device imbalance from 47\% to 2.4\%; (ii) distributed communication optimization, comprising hierarchical sparse parallelism, semi-asynchronous training with proven convergence guarantees, and fine-grained pipeline orchestration that sustains 94\% NPU utilization; and (iii) negative sampling optimization via asynchronous offloading, jaggedness-aware FP16 quantization, and intra-batch logit sharing that expand the effective negative space without additional embedding lookups. Evaluated on the KuaiRand-27K dataset, \model supports training at up to 0.2B parameters and achieves 54.71\% MFU with near-linear scalability (0.97).
- Abstract(参考訳): ジェネレーティブレコメンデーション(GR)は、断片化されたシナリオ固有のアーキテクチャをトランスフォーマーベースの統一モデルに置き換える、有望なパラダイムとして浮上し、モデルキャパシティとトレーニングデータの増加によって、推奨品質が体系的に改善する、スケーリング法則の振る舞いを示す。
しかし、 Ascend NPU 上で GR を大規模にデプロイすることは、システムレベルの根本的な課題に直面している。
これらの課題は、ジャグ演算子の高性能実装が欠如していることや、不規則なスパースプリミティブとNPUの高密度計算最適化設計とのアーキテクチャミスマッチにより、Ascend NPUでさらに悪化している。
本稿では,3つの中心となるイノベーションを通じて,これらのボトルネックに体系的に対処する生成レコメンデーションのためのアセンド・アフィニティ・トレーニングシステムである \model を提案する。
一 装置間不均衡を47 %から2.4 %に減少させる、パッドの冗長性及び動的負荷分散を除去する融合演算子を含むアセンド親和性ジャッジ加速
(II)階層的なスパース並列性、コンバージェンス保証を証明した半非同期トレーニング、94%のNPU使用率を維持する細粒度パイプラインオーケストレーションを含む分散通信最適化。
3)非同期オフロード,ジャグネス対応FP16量子化,バッチ内ロジット共有による負のサンプリング最適化。
KuaiRand-27Kデータセットに基づいて評価され、最大0.2Bパラメータでのトレーニングをサポートし、ニア線形スケーラビリティ(0.97)で54.71\% MFUを達成する。
関連論文リスト
- Joint Optimization of Model Partitioning and Resource Allocation for Anti-Jamming Collaborative Inference Systems [52.842088497389746]
この手紙は、悪意のあるジャマーの存在下での、アンチジャミングの協調推論システムに焦点を当てている。
まず、ジャミングとDNNパーティショニングがデータ回帰による推測精度に与える影響を解析する。
問題を3つのサブプロブレムに分解する,効率的な交互最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-03T03:52:52Z) - Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - Fine-Tuning Diffusion-Based Recommender Systems via Reinforcement Learning with Reward Function Optimization [21.769717387197943]
拡散モデルは、ユーザ・イテム相互作用の生成過程をモデル化することによって、最先端のパフォーマンスを提供する。
ReFiTはReinforcement Learning(RL)ベースのFin-Tuningを拡散型レコメンデータシステムに統合する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-10T10:38:16Z) - Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios [4.735413508037063]
本稿では,視覚障害者の補助ナビゲーションに適した運動量制約付きハイブリッド軌道最適化フレームワーク(MHHTOF)を提案する。
残留深部強化学習(DRL)による軌道サンプリング生成、最適化、評価の統合
実験の結果,提案したLSTM-BResPPOは,PPOが要求する約半数のトレーニングにおいて,安定な政策性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2025-09-19T04:33:39Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。