論文の概要: MTmixAtt: Integrating Mixture-of-Experts with Multi-Mix Attention for Large-Scale Recommendation
- arxiv url: http://arxiv.org/abs/2510.15286v1
- Date: Fri, 17 Oct 2025 03:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.462014
- Title: MTmixAtt: Integrating Mixture-of-Experts with Multi-Mix Attention for Large-Scale Recommendation
- Title(参考訳): MTmixAtt:大規模レコメンデーションのためのMixAttとMixAttentionの統合
- Authors: Xianyang Qi, Yuan Tian, Zhaoyu Hu, Zhirui Kuai, Chang Liu, Hongxiang Lin, Lei Wang,
- Abstract要約: 我々は,Multi-Mix Attention を用いたMixture-of-Experts (MoE) アーキテクチャである textbfMTmixAtt を提案する。
textbfAutoTokenモジュールは、異種機能をセマンティックコヒーレントトークンに自動的にクラスタリングし、ヒューマン定義の機能グループの必要性を取り除く。
Meituanの産業TRecデータセットに関する大規模な実験は、MTmixAttが一貫して最先端のベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 8.34766340139746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial recommender systems critically depend on high-quality ranking models. However, traditional pipelines still rely on manual feature engineering and scenario-specific architectures, which hinder cross-scenario transfer and large-scale deployment. To address these challenges, we propose \textbf{MTmixAtt}, a unified Mixture-of-Experts (MoE) architecture with Multi-Mix Attention, designed for large-scale recommendation tasks. MTmixAtt integrates two key components. The \textbf{AutoToken} module automatically clusters heterogeneous features into semantically coherent tokens, removing the need for human-defined feature groups. The \textbf{MTmixAttBlock} module enables efficient token interaction via a learnable mixing matrix, shared dense experts, and scenario-aware sparse experts, capturing both global patterns and scenario-specific behaviors within a single framework. Extensive experiments on the industrial TRec dataset from Meituan demonstrate that MTmixAtt consistently outperforms state-of-the-art baselines including Transformer-based models, WuKong, HiFormer, MLP-Mixer, and RankMixer. At comparable parameter scales, MTmixAtt achieves superior CTR and CTCVR metrics; scaling to MTmixAtt-1B yields further monotonic gains. Large-scale online A/B tests validate the real-world impact: in the \textit{Homepage} scenario, MTmixAtt increases Payment PV by \textbf{+3.62\%} and Actual Payment GTV by \textbf{+2.54\%}. Overall, MTmixAtt provides a unified and scalable solution for modeling arbitrary heterogeneous features across scenarios, significantly improving both user experience and commercial outcomes.
- Abstract(参考訳): 産業推薦システムは高品質のランキングモデルに依存している。
しかし、従来のパイプラインは手動の機能エンジニアリングとシナリオ固有のアーキテクチャに依存しており、クロスシナリオ転送や大規模デプロイメントを妨げている。
これらの課題に対処するために,大規模レコメンデーションタスク用に設計されたMulti-Mix Attentionを用いたMix-of-Experts (MoE) アーキテクチャである \textbf{MTmixAtt} を提案する。
MTmixAttは2つの重要なコンポーネントを統合する。
\textbf{AutoToken}モジュールは、異種機能をセマンティックコヒーレントトークンに自動的にクラスタリングし、ヒューマン定義の機能グループの必要性を取り除く。
\textbf{MTmixAttBlock}モジュールは、学習可能なミキシングマトリックス、共有された密集したエキスパート、シナリオ対応のスパースエキスパートを通じて効率的なトークンインタラクションを可能にし、グローバルパターンとシナリオ固有の振る舞いを単一のフレームワーク内でキャプチャする。
Meituanの産業TRecデータセットに関する大規模な実験によると、MTmixAttはTransformerベースのモデル、WuKong、HiFormer、MLP-Mixer、RangeMixerなど、最先端のベースラインを一貫して上回っている。
MTmixAttは、パラメータスケールで優れたCTRとCTCVRのメトリクスを達成し、MTmixAtt-1Bへのスケーリングによりさらに単調なゲインが得られる。
大規模なオンラインA/Bテストは、実際の影響を検証する: \textit{Homepage} シナリオでは、MTmixAtt は Payment PV を \textbf{+3.62\%} で増加させ、実際の Payment GTV を \textbf{+2.54\%} で増加させる。
全体として、MTmixAttは、シナリオ間で任意の異種機能をモデリングするための統一的でスケーラブルなソリューションを提供する。
関連論文リスト
- AdaMixT: Adaptive Weighted Mixture of Multi-Scale Expert Transformers for Time Series Forecasting [15.522567372502762]
AdaMixT (Adaptive Weighted Mixture of Multi-Scale Expert Transformers) という新しいアーキテクチャを提案する。
AdaMixTは様々なパッチを導入し、汎用事前訓練モデル(GPM)とドメイン固有モデル(DSM)の両方を活用してマルチスケールの特徴抽出を行う。
気象、交通、電気、ILI、および4つのETTデータセットを含む8つの広く使用されているベンチマークに関する総合的な実験は、一貫してAdaMixTの有効性を実証している。
論文 参考訳(メタデータ) (2025-09-09T15:30:53Z) - Merge to Mix: Mixing Datasets via Model Merging [2.990932417718553]
大規模モデル(LM)を微調整するためのデータセットの混合は、下流タスクのパフォーマンスを最大化するために重要になっている。
モデルマージによるデータセットの合成を高速化する新しい手法であるtextitMerge to Mix$を提案する。
実験により、Merge to Mixは、微調整LMのためのデータセット選択において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-05-21T22:34:13Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Adversarial AutoMixup [50.1874436169571]
本稿では,AdAutomixupを提案する。
画像分類のための堅牢な分類器を訓練するために、挑戦的なサンプルを生成する。
本手法は, 様々な分類シナリオにおいて, 技術状況に優れる。
論文 参考訳(メタデータ) (2023-12-19T08:55:00Z) - SMMix: Self-Motivated Image Mixing for Vision Transformers [65.809376136455]
CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。
本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
論文 参考訳(メタデータ) (2022-12-26T00:19:39Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - k-Mixup Regularization for Deep Learning via Optimal Transport [32.951696405505686]
Mixupは、ディープニューラルネットワークをトレーニングするための一般的な正規化テクニックである。
emph$k$-mixupは、他の$k$-batchesの方向に、トレーニングポイントの$k$-batchesを摂動させる。
我々は、$k$-mixupによるトレーニングにより、複数のネットワークアーキテクチャにおける一般化と堅牢性がさらに向上することを示す。
論文 参考訳(メタデータ) (2021-06-05T17:08:08Z) - AutoMix: Unveiling the Power of Mixup [34.623943038648164]
サンプル混合ポリシーを適応的に学習するために、識別機能を利用する柔軟性のある一般的な自動混合フレームワークを紹介します。
mixup をプリテキストタスクとして捉え,ミックスサンプル生成とミックスアップ分類という2つのサブプロブレムに分割した。
6つの人気のある分類ベンチマークの実験は、AutoMixが他の主要なミックスアップメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2021-03-24T07:21:53Z) - Patch-level Neighborhood Interpolation: A General and Effective
Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。
提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文 参考訳(メタデータ) (2019-11-21T06:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。