論文の概要: Compute Only Once: UG-Separation for Efficient Large Recommendation Models
- arxiv url: http://arxiv.org/abs/2602.10455v1
- Date: Wed, 11 Feb 2026 02:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.410348
- Title: Compute Only Once: UG-Separation for Efficient Large Recommendation Models
- Title(参考訳): 1回だけ計算: 効率的な大規模推薦モデルのためのUG分離
- Authors: Hui Lu, Zheng Chai, Shipeng Bai, Hao Zhang, Zhifang Fan, Kunmin Bai, Yingwen Wu, Bingzheng Wei, Xiang Sun, Ziyan Gong, Tianyi Liu, Hua Chen, Deping Xie, Zhongkai Chen, Zhiliang Guo, Qiwei Chen, Yuchao Zheng,
- Abstract要約: 密接な相互作用モデルにおけるユーザ側の再利用可能な計算を可能にする新しいフレームワークであるユーザグループ分離(UG-Sep)を提案する。
UG-Sepは、オンラインユーザエクスペリエンスや商用メトリクスを低下させることなく、推論遅延を最大20%削減する。
我々はByteDanceで大規模なオフライン評価と大規模オンラインA/B実験を行っている。
- 参考スコア(独自算出の注目度): 22.291095065829968
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Driven by scaling laws, recommender systems increasingly rely on large-scale models to capture complex feature interactions and user behaviors, but this trend also leads to prohibitive training and inference costs. While long-sequence models(e.g., LONGER) can reuse user-side computation through KV caching, such reuse is difficult in dense feature interaction architectures(e.g., RankMixer), where user and group (candidate item) features are deeply entangled across layers. In this work, we propose User-Group Separation (UG-Sep), a novel framework that enables reusable user-side computation in dense interaction models for the first time. UG-Sep introduces a masking mechanism that explicitly disentangles user-side and item-side information flows within token-mixing layers, ensuring that a subset of tokens to preserve purely user-side representations across layers. This design enables corresponding token computations to be reused across multiple samples, significantly reducing redundant inference cost. To compensate for potential expressiveness loss induced by masking, we further propose an Information Compensation strategy that adaptively reconstructs suppressed user-item interactions. Moreover, as UG-Sep substantially reduces user-side FLOPs and exposes memory-bound components, we incorporate W8A16 (8-bit weight, 16-bit activation) weight-only quantization to alleviate memory bandwidth bottlenecks and achieve additional acceleration. We conduct extensive offline evaluations and large-scale online A/B experiments at ByteDance, demonstrating that UG-Sep reduces inference latency by up to 20 percent without degrading online user experience or commercial metrics across multiple business scenarios, including feed recommendation and advertising systems.
- Abstract(参考訳): 法則のスケーリングによって駆動されるレコメンダシステムは、複雑な機能のインタラクションやユーザの振る舞いを捉えるために、ますます大規模なモデルに依存していますが、この傾向は、トレーニングや推論の禁止にもつながります。
ロングシーケンスモデル(例えばLONGER)はKVキャッシュを通じてユーザ側の計算を再利用できるが、ユーザとグループ(候補項目)の機能が層に深く絡み合うような密集した機能相互作用アーキテクチャ(例えば RankMixer)では、そのような再利用は困難である。
本研究では,ユーザグループ分離(UG-Sep)を提案する。UG-Sepは,密接な相互作用モデルにおける再利用可能なユーザ側計算を可能にする新しいフレームワークである。
UG-Sepは、トークンミキシング層内のユーザー側とアイテム側の情報フローを明示的に切り離し、トークンのサブセットが、レイヤ間の純粋にユーザ側表現を保存することを保証するマスキングメカニズムを導入している。
この設計により、対応するトークン計算を複数のサンプルで再利用することができ、冗長な推論コストを大幅に削減できる。
さらに,マスキングによって引き起こされる潜在的な表現力損失を補償するために,抑圧されたユーザ・イテム相互作用を適応的に再構築する情報補償戦略を提案する。
さらに,UG-Sepはユーザ側のFLOPを著しく削減し,メモリバウンドコンポーネントを公開するため,メモリ帯域のボトルネックを緩和し,さらなる加速を実現するために,W8A16(重み8ビット,アクティベーション16ビット)重みのみの量子化を導入する。
ByteDanceで大規模なオフライン評価と大規模なオンラインA/B実験を行い、UG-Sepは、オンラインユーザエクスペリエンスや、フィードレコメンデーションや広告システムを含む複数のビジネスシナリオにわたる商用メトリクスを低下させることなく、推論遅延を最大20%削減することを示した。
関連論文リスト
- Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference [8.296993547783808]
ExpertFlowは、適応型エキスパートプリフェッチとキャッシュ対応ルーティングを組み合わせた、MoE推論のためのランタイムシステムである。
我々の評価では、ExpertFlowはモデルストール時間をベースラインの0.1%未満に短縮する。
論文 参考訳(メタデータ) (2025-10-30T17:29:27Z) - Embed Progressive Implicit Preference in Unified Space for Deep Collaborative Filtering [13.24227546548424]
GNOLR(Generalized Neural Ordinal Logistic Regression)は、ユーザエンゲージメントの構造的進行を捉えるために提案されている。
GNOLRは予測精度を高め、ユーザのエンゲージメントの進行を捉え、検索プロセスを単純化する。
10の実世界のデータセットでの実験では、GNOLRは効率と適応性において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-27T08:43:35Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。
しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。
PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - Retrieval Augmentation via User Interest Clustering [57.63883506013693]
インダストリアルレコメンデータシステムは、ユーザ・イテム・エンゲージメントのパターンに敏感である。
本稿では,ユーザの関心を効率的に構築し,計算コストの低減を図る新しい手法を提案する。
当社のアプローチはMetaの複数の製品に展開されており、ショートフォームビデオ関連の推奨を助長しています。
論文 参考訳(メタデータ) (2024-08-07T16:35:10Z) - LightSecAgg: Rethinking Secure Aggregation in Federated Learning [24.834891926133594]
我々はLightSecAggが最先端プロトコルと同じプライバシとフォールアウト・レジリエンスの保証を実現していることを示す。
また、LightSecAggはトレーニング時間を大幅に短縮し、パフォーマンスが最大で12.7タイムsのベースラインでのパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-09-29T07:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。