論文の概要: TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders
- arxiv url: http://arxiv.org/abs/2602.06563v2
- Date: Tue, 10 Feb 2026 02:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:42.922323
- Title: TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders
- Title(参考訳): TokenMixer-Large: 業界のレコメンデーションにおける大規模ランキングモデルのスケールアップ
- Authors: Yuchen Jiang, Jie Zhu, Xintian Han, Hui Lu, Kunmin Bai, Mingyu Yang, Shikang Wu, Ruihao Zhang, Wenlin Zhao, Shipeng Bai, Sijin Zhou, Huizhi Yang, Tianyi Liu, Wenda Liu, Ziyan Gong, Haoran Ding, Zheng Chai, Deping Xie, Zhe Chen, Yuchao Zheng, Peng Xu,
- Abstract要約: TokenMixer-Largeは,超大規模レコメンデーションのために設計された,体系的に進化したアーキテクチャである。
また, 混合反転操作, 層間残留物, 補助損失を導入することにより, 安定な勾配伝播を確実にする。
TokenMixer-Largeは、オンライントラフィックとオフライン実験でパラメータを7ビリオン、15ビリオンにスケールすることに成功した。
- 参考スコア(独自算出の注目度): 28.610671210049247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While scaling laws for recommendation models have gained significant traction, existing architectures such as Wukong, HiFormer and DHEN, often struggle with sub-optimal designs and hardware under-utilization, limiting their practical scalability. Our previous TokenMixer architecture (introduced in RankMixer paper) addressed effectiveness and efficiency by replacing self-attention with a ightweight token-mixing operator; however, it faced critical bottlenecks in deeper configurations, including sub-optimal residual paths, vanishing gradients, incomplete MoE sparsification and constrained scalability. In this paper, we propose TokenMixer-Large, a systematically evolved architecture designed for extreme-scale recommendation. By introducing a mixing-and-reverting operation, inter-layer residuals and the auxiliary loss, we ensure stable gradient propagation even as model depth increases. Furthermore, we incorporate a Sparse Per-token MoE to enable efficient parameter expansion. TokenMixer-Large successfully scales its parameters to 7-billion and 15-billion on online traffic and offline experiments, respectively. Currently deployed in multiple scenarios at ByteDance, TokenMixer-Large has achieved significant offline and online performance gains, delivering an increase of +1.66\% in orders and +2.98\% in per-capita preview payment GMV for e-commerce, improving ADSS by +2.0\% in advertising and achieving a +1.4\% revenue growth for live streaming.
- Abstract(参考訳): レコメンデーションモデルのスケーリング法則は大きな注目を集めているが、Wukong、HiFormer、DHENといった既存のアーキテクチャは、しばしば準最適設計とハードウェアのアンユース化に苦慮し、実用的スケーラビリティを制限している。
従来のTokenMixerアーキテクチャ(RangeMixer論文で紹介)は,自己注意を軽量なトークン混合演算子に置き換えることで,効率と効率性に対処するが,準最適残差パス,勾配の消失,不完全なMoEスペーサ化,制約付きスケーラビリティといった,より深い構成のボトルネックに直面した。
本稿では,超大規模レコメンデーションのための体系的に進化したアーキテクチャであるTokenMixer-Largeを提案する。
モデル深度が増大しても, 混合反転操作, 層間残留物, 補助損失を導入することにより, 安定な勾配伝播を確保できる。
さらに,Sparse Per-token MoEを組み込んで,効率的なパラメータ展開を実現する。
TokenMixer-Largeは、オンライントラフィックとオフライン実験で、パラメータを7ビリオンと15ビリオンに拡大することに成功した。
ByteDanceの複数のシナリオで現在デプロイされているTokenMixer-Largeは、オフラインおよびオンラインのパフォーマンスが大幅に向上し、注文数+1.66\%の増加と1人あたりのプレビューペイメントの2.98\%の増加、広告の2.0\%改善、ライブストリーミングの収益増加+1.4\%を達成した。
関連論文リスト
- Controlled LLM Training on Spectral Sphere [76.60985966206746]
重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
論文 参考訳(メタデータ) (2026-01-13T09:59:47Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - MTmixAtt: Integrating Mixture-of-Experts with Multi-Mix Attention for Large-Scale Recommendation [8.34766340139746]
我々は,Multi-Mix Attention を用いたMixture-of-Experts (MoE) アーキテクチャである textbfMTmixAtt を提案する。
textbfAutoTokenモジュールは、異種機能をセマンティックコヒーレントトークンに自動的にクラスタリングし、ヒューマン定義の機能グループの必要性を取り除く。
Meituanの産業TRecデータセットに関する大規模な実験は、MTmixAttが一貫して最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-17T03:50:09Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - RankMixer: Scaling Up Ranking Models in Industrial Recommenders [25.072128027628104]
工業用レコメンダのトレーニングとサービスコストは、厳格なレイテンシ境界と高いQPS要求を尊重しなければならない。
RankMixerは,統一的でスケーラブルな機能インタラクションアーキテクチャを指向した,ハードウェア対応のモデル設計である。
実験では、数兆のスケールのプロダクションデータセット上で、RangMixerの優れたスケーリング能力を示している。
論文 参考訳(メタデータ) (2025-07-21T12:28:55Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Mixture of Experts in Image Classification: What's the Sweet Spot? [41.72573567802606]
オープンデータセットを用いた画像分類アーキテクチャにおけるMoE層の統合について検討する。
サンプルあたりの中間パラメータのアクティベーションは、パフォーマンスと効率の最良のトレードオフを提供します。
MoE層は、小型・中型モデルが最も効果的に強化され、大容量ネットワークではテーパーオフになる。
論文 参考訳(メタデータ) (2024-11-27T13:23:11Z) - TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference [13.263938935671646]
AdapMoEは、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークである。
AdapMoEは、オンデマンドのロードオーバーヘッドを減らすために、アダプティブなエキスパートゲーティングと管理機能を備えている。
AdapMoEは既存の技術より一貫して優れており、アクティベートされた専門家の平均数が25%減少し、精度を低下させることなく1.35倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-08-19T03:27:15Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Mixture of Tokens: Continuous MoE through Cross-Example Aggregation [0.7880651741080428]
エキスパートの混合(MoE)モデルは、言語とビジョンタスクの境界を押し広げています。
MoTは単純で連続的なアーキテクチャであり、スパースMoEモデルと同様にパラメータの数をスケーリングすることができる。
我々の最良のモデルは、言語事前学習における高密度トランスフォーマーモデルよりも3倍のトレーニング速度を達成する。
論文 参考訳(メタデータ) (2023-10-24T16:03:57Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。