論文の概要: DMGIN: How Multimodal LLMs Enhance Large Recommendation Models for Lifelong User Post-click Behaviors
- arxiv url: http://arxiv.org/abs/2508.21801v1
- Date: Fri, 29 Aug 2025 17:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.134232
- Title: DMGIN: How Multimodal LLMs Enhance Large Recommendation Models for Lifelong User Post-click Behaviors
- Title(参考訳): DMGIN: クリック後の生涯ユーザ行動に対する大規模な推奨モデルを実現するマルチモーダルLLM
- Authors: Zhuoxing Wei, Qingchen Xie, Qi Liu,
- Abstract要約: 長いクリック後の動作シーケンスは、深刻なパフォーマンス問題を引き起こす。
Deep Multimodal Group Interest Network (DMGIN)はClick-Through Rate (CTR)予測を改善する。
- 参考スコア(独自算出の注目度): 5.465812199325145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling user interest based on lifelong user behavior sequences is crucial for enhancing Click-Through Rate (CTR) prediction. However, long post-click behavior sequences themselves pose severe performance issues: the sheer volume of data leads to high computational costs and inefficiencies in model training and inference. Traditional methods address this by introducing two-stage approaches, but this compromises model effectiveness due to incomplete utilization of the full sequence context. More importantly, integrating multimodal embeddings into existing large recommendation models (LRM) presents significant challenges: These embeddings often exacerbate computational burdens and mismatch with LRM architectures. To address these issues and enhance the model's efficiency and accuracy, we introduce Deep Multimodal Group Interest Network (DMGIN). Given the observation that user post-click behavior sequences contain a large number of repeated items with varying behaviors and timestamps, DMGIN employs Multimodal LLMs(MLLM) for grouping to reorganize complete lifelong post-click behavior sequences more effectively, with almost no additional computational overhead, as opposed to directly introducing multimodal embeddings. To mitigate the potential information loss from grouping, we have implemented two key strategies. First, we analyze behaviors within each group using both interest statistics and intra-group transformers to capture group traits. Second, apply inter-group transformers to temporally ordered groups to capture the evolution of user group interests. Our extensive experiments on both industrial and public datasets confirm the effectiveness and efficiency of DMGIN. The A/B test in our LBS advertising system shows that DMGIN improves CTR by 4.7% and Revenue per Mile by 2.3%.
- Abstract(参考訳): CTR(Click-Through Rate)予測の強化には,生涯にわたるユーザの行動系列に基づくユーザ関心のモデル化が不可欠である。
しかし、長いクリック後の動作シーケンス自体が深刻なパフォーマンス上の問題を引き起こす: 大量のデータによって、モデルトレーニングや推論において高い計算コストと非効率性がもたらされる。
従来の手法では、2段階のアプローチを導入することでこの問題に対処するが、完全なシーケンスコンテキストの不完全な利用により、モデルの有効性が損なわれる。
さらに重要なのは、既存の大規模レコメンデーションモデル(LRM)にマルチモーダル埋め込みを統合することで、大きな課題が浮かび上がっています。
これらの問題に対処し、モデルの効率性と精度を高めるために、Deep Multimodal Group Interest Network (DMGIN)を導入する。
ユーザがクリック後の動作シーケンスに様々な動作やタイムスタンプを繰り返す項目が多数含まれていることを考えると、DMGINはマルチモーダル埋め込みを直接導入するのとは対照的に、完全な生涯にわたるクリック後の動作シーケンスをより効果的に再編成するためにマルチモーダルLCM(MLLM)を使用している。
グループ化による潜在的な情報損失を軽減するため、我々は2つの重要な戦略を実装した。
まず、興味統計とグループ内トランスフォーマーの両方を用いてグループ内の振る舞いを分析し、グループ特性を捉える。
第2に、時間的に順序付けられたグループにグループ間トランスフォーマーを適用して、ユーザグループの関心事の進化を捉える。
産業用および公共用両方のデータセットに関する広範な実験により,DMGINの有効性と有効性が確認された。
我々のLBS広告システムにおけるA/Bテストでは、DMGINはCTRを4.7%改善し、1マイルあたりの収益は2.3%改善した。
関連論文リスト
- More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [51.497338578427915]
大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。
DrICLは、textitDifferentiatedとtextitReweightingの目的によってモデル性能を向上させる新しい最適化手法である。
textitMany-Shot ICL Benchmark (ICL-50) は最大8,000トークンのシーケンスで1から350までのショット数をカバーした50タスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou [28.809014888174932]
SIMの強化であるTWIN-V2を導入し、ライフサイクルの振る舞いを圧縮し、より正確で多様なユーザの興味を明らかにする。
効率的なデプロイメントフレームワークの下では、TWIN-V2が主要なトラフィックにデプロイされ、Kuaishouでは毎日数億人のアクティブユーザを提供する。
論文 参考訳(メタデータ) (2024-07-23T10:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。