論文の概要: MTGR: Industrial-Scale Generative Recommendation Framework in Meituan
- arxiv url: http://arxiv.org/abs/2505.18654v2
- Date: Tue, 27 May 2025 03:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 11:59:46.561227
- Title: MTGR: Industrial-Scale Generative Recommendation Framework in Meituan
- Title(参考訳): MTGR:Meituanにおける産業規模のジェネレーティブ・レコメンデーション・フレームワーク
- Authors: Ruidong Han, Bin Yin, Shangyu Chen, He Jiang, Fei Jiang, Xiang Li, Chi Ma, Mincong Huang, Xiaoguang Li, Chunzhen Jing, Yueming Han, Menglei Zhou, Lei Yu, Chuan Liu, Wei Lin,
- Abstract要約: この問題に対処するためにMTGR(Meituan Generative Recommendation)を提案する。
MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。
この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備された。
- 参考スコア(独自算出の注目度): 28.92150571719811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling law has been extensively validated in many domains such as natural language processing and computer vision. In the recommendation system, recent work has adopted generative recommendations to achieve scalability, but their generative approaches require abandoning the carefully constructed cross features of traditional recommendation models. We found that this approach significantly degrades model performance, and scaling up cannot compensate for it at all. In this paper, we propose MTGR (Meituan Generative Recommendation) to address this issue. MTGR is modeling based on the HSTU architecture and can retain the original deep learning recommendation model (DLRM) features, including cross features. Additionally, MTGR achieves training and inference acceleration through user-level compression to ensure efficient scaling. We also propose Group-Layer Normalization (GLN) to enhance the performance of encoding within different semantic spaces and the dynamic masking strategy to avoid information leakage. We further optimize the training frameworks, enabling support for our models with 10 to 100 times computational complexity compared to the DLRM, without significant cost increases. MTGR achieved 65x FLOPs for single-sample forward inference compared to the DLRM model, resulting in the largest gain in nearly two years both offline and online. This breakthrough was successfully deployed on Meituan, the world's largest food delivery platform, where it has been handling the main traffic.
- Abstract(参考訳): スケーリング法則は自然言語処理やコンピュータビジョンなど多くの領域で広く検証されている。
近年のレコメンデーションシステムでは、スケーラビリティを実現するためにジェネレーティブなレコメンデーションが採用されているが、それらのジェネレーティブなアプローチでは、伝統的なレコメンデーションモデルの慎重に構築されたクロスフィーチャを放棄する必要がある。
このアプローチはモデルのパフォーマンスを著しく低下させます。
本稿では,MTGR(Meituan Generative Recommendation)を提案する。
MTGRはHSTUアーキテクチャに基づいてモデリングされており、クロス機能を含むオリジナルのディープラーニングレコメンデーションモデル(DLRM)機能を維持できる。
さらに、MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。
また,情報漏洩を回避するために,異なる意味空間内での符号化性能を向上させるグループ階層正規化(GLN)と動的マスキング戦略を提案する。
トレーニングフレームワークをさらに最適化し、DLRMの10倍から100倍の計算量で、大幅なコスト増加なしにモデルをサポートできるようにします。
MTGRはDLRMモデルと比較してシングルサンプルのフォワード推論で65倍のFLOPを達成した。
この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備され、主要なトラフィックを処理している。
関連論文リスト
- LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Action is All You Need: Dual-Flow Generative Ranking Network for Recommendation [25.30922374657862]
本稿では,推奨シナリオのためのDual-Flow Generative Ranking Network(DFGR)を紹介する。
DFGRは相互作用モデリングの最適化にデュアルフロー機構を採用している。
オープンソースおよび実際の産業データセットにおける実験は、DFGRがDLRMを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-22T14:58:53Z) - Inference-Time Scaling for Generalist Reward Modeling [25.62000059973935]
強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングにおいて広く採用されている。
RLの主な課題は、検証可能な質問や人工ルールを超えて、様々な領域のLLMに対して正確な報酬信号を得ることである。
本研究では,一般問合せに対する推論計算により,報酬モデルを改善する方法について検討する。
論文 参考訳(メタデータ) (2025-04-03T11:19:49Z) - An Efficient Large Recommendation Model: Towards a Resource-Optimal Scaling Law [2.688944054336062]
Climberはリソース効率のよいレコメンデーションフレームワークです。
中国最大の音楽ストリーミングプラットフォームの一つであるNetease Cloud Musicで成功を収めている。
論文 参考訳(メタデータ) (2025-02-14T03:25:09Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。