論文の概要: UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
- arxiv url: http://arxiv.org/abs/2604.00590v2
- Date: Thu, 02 Apr 2026 02:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.375647
- Title: UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
- Title(参考訳): UniMixer:レコメンデーションシステムにおける法則のスケーリングのための統一アーキテクチャ
- Authors: Mingming Ha, Guanchen Wang, Linxun Chen, Xuan Rao, Yuexin Shi, Tianbao Ma, Zhaojie Liu, Yunqian Fan, Zilong Lu, Yanan Niu, Han Li, Kun Gai,
- Abstract要約: 我々は、スケーリング効率を向上させるために、リコメンデーションシステムである textbfUniMixer の統一スケーリングアーキテクチャを提案する。
我々は、注意に基づく、TokenMixerベースの、ファクトリゼーションに基づくメソッド間の接続をブリッジする、レコメンダシステムのための統一スケーリングモジュール設計フレームワークを構築した。
- 参考スコア(独自算出の注目度): 22.268247447161134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the scaling laws of recommendation models have attracted increasing attention, which govern the relationship between performance and parameters/FLOPs of recommenders. Currently, there are three mainstream architectures for achieving scaling in recommendation models, namely attention-based, TokenMixer-based, and factorization-machine-based methods, which exhibit fundamental differences in both design philosophy and architectural structure. In this paper, we propose a unified scaling architecture for recommendation systems, namely \textbf{UniMixer}, to improve scaling efficiency and establish a unified theoretical framework that unifies the mainstream scaling blocks. By transforming the rule-based TokenMixer to an equivalent parameterized structure, we construct a generalized parameterized feature mixing module that allows the token mixing patterns to be optimized and learned during model training. Meanwhile, the generalized parameterized token mixing removes the constraint in TokenMixer that requires the number of heads to be equal to the number of tokens. Furthermore, we establish a unified scaling module design framework for recommender systems, which bridges the connections among attention-based, TokenMixer-based, and factorization-machine-based methods. To further boost scaling ROI, a lightweight UniMixing module is designed, \textbf{UniMixing-Lite}, which further compresses the model parameters and computational cost while significantly improve the model performance. The scaling curves are shown in the following figure. Extensive offline and online experiments are conducted to verify the superior scaling abilities of \textbf{UniMixer}.
- Abstract(参考訳): 近年,レコメンデーションモデルのスケーリング法則が注目され,レコメンデーションモデルの性能とパラメータ/FLOPの関係が支配されている。
現在、アテンションベース、TokenMixerベース、ファクタライズマシンベースの3つの主要なアーキテクチャがあり、設計哲学とアーキテクチャ構造の両方に根本的な違いがある。
本稿では,推奨システム,すなわち‘textbf{UniMixer} のための統一的なスケーリングアーキテクチャを提案し,スケーリング効率を改善し,主流のスケーリングブロックを統一する統一的な理論的枠組みを確立する。
ルールベースのTokenMixerを等価なパラメータ化構造に変換することにより,トークン混合パターンを最適化し,モデルトレーニング中に学習する汎用パラメータ化特徴混合モジュールを構築する。
一方、一般化されたパラメータ化トークンミキシングはトークンの数に等しいヘッダの数を必要とするTokenMixerの制約を取り除く。
さらに,アテンションベース,TokenMixerベース,ファクタライズマシンベースメソッド間の接続をブリッジする,レコメンダシステムのための統一スケーリングモジュール設計フレームワークを構築した。
スケーリングROIをさらに強化するため、軽量なUniMixingモジュールである \textbf{UniMixing-Lite} が設計され、モデルパラメータと計算コストをさらに圧縮し、モデル性能を大幅に改善する。
スケーリング曲線は以下の図に示す。
大規模なオフラインおよびオンライン実験を行い、textbf{UniMixer}の優れたスケーリング能力を検証した。
関連論文リスト
- TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders [28.610671210049247]
TokenMixer-Largeは,超大規模レコメンデーションのために設計された,体系的に進化したアーキテクチャである。
また, 混合反転操作, 層間残留物, 補助損失を導入することにより, 安定な勾配伝播を確実にする。
TokenMixer-Largeは、オンライントラフィックとオフライン実験でパラメータを7ビリオン、15ビリオンにスケールすることに成功した。
論文 参考訳(メタデータ) (2026-02-06T10:04:33Z) - MTmixAtt: Integrating Mixture-of-Experts with Multi-Mix Attention for Large-Scale Recommendation [8.34766340139746]
我々は,Multi-Mix Attention を用いたMixture-of-Experts (MoE) アーキテクチャである textbfMTmixAtt を提案する。
textbfAutoTokenモジュールは、異種機能をセマンティックコヒーレントトークンに自動的にクラスタリングし、ヒューマン定義の機能グループの必要性を取り除く。
Meituanの産業TRecデータセットに関する大規模な実験は、MTmixAttが一貫して最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-17T03:50:09Z) - RankMixer: Scaling Up Ranking Models in Industrial Recommenders [25.072128027628104]
工業用レコメンダのトレーニングとサービスコストは、厳格なレイテンシ境界と高いQPS要求を尊重しなければならない。
RankMixerは,統一的でスケーラブルな機能インタラクションアーキテクチャを指向した,ハードウェア対応のモデル設計である。
実験では、数兆のスケールのプロダクションデータセット上で、RangMixerの優れたスケーリング能力を示している。
論文 参考訳(メタデータ) (2025-07-21T12:28:55Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。