論文の概要: DMGIN: How Multimodal LLMs Enhance Large Recommendation Models for Lifelong User Post-click Behaviors
- arxiv url: http://arxiv.org/abs/2508.21801v1
- Date: Fri, 29 Aug 2025 17:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.134232
- Title: DMGIN: How Multimodal LLMs Enhance Large Recommendation Models for Lifelong User Post-click Behaviors
- Title(参考訳): DMGIN: クリック後の生涯ユーザ行動に対する大規模な推奨モデルを実現するマルチモーダルLLM
- Authors: Zhuoxing Wei, Qingchen Xie, Qi Liu,
- Abstract要約: 長いクリック後の動作シーケンスは、深刻なパフォーマンス問題を引き起こす。
Deep Multimodal Group Interest Network (DMGIN)はClick-Through Rate (CTR)予測を改善する。
- 参考スコア(独自算出の注目度): 5.465812199325145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling user interest based on lifelong user behavior sequences is crucial for enhancing Click-Through Rate (CTR) prediction. However, long post-click behavior sequences themselves pose severe performance issues: the sheer volume of data leads to high computational costs and inefficiencies in model training and inference. Traditional methods address this by introducing two-stage approaches, but this compromises model effectiveness due to incomplete utilization of the full sequence context. More importantly, integrating multimodal embeddings into existing large recommendation models (LRM) presents significant challenges: These embeddings often exacerbate computational burdens and mismatch with LRM architectures. To address these issues and enhance the model's efficiency and accuracy, we introduce Deep Multimodal Group Interest Network (DMGIN). Given the observation that user post-click behavior sequences contain a large number of repeated items with varying behaviors and timestamps, DMGIN employs Multimodal LLMs(MLLM) for grouping to reorganize complete lifelong post-click behavior sequences more effectively, with almost no additional computational overhead, as opposed to directly introducing multimodal embeddings. To mitigate the potential information loss from grouping, we have implemented two key strategies. First, we analyze behaviors within each group using both interest statistics and intra-group transformers to capture group traits. Second, apply inter-group transformers to temporally ordered groups to capture the evolution of user group interests. Our extensive experiments on both industrial and public datasets confirm the effectiveness and efficiency of DMGIN. The A/B test in our LBS advertising system shows that DMGIN improves CTR by 4.7% and Revenue per Mile by 2.3%.
- Abstract(参考訳): CTR(Click-Through Rate)予測の強化には,生涯にわたるユーザの行動系列に基づくユーザ関心のモデル化が不可欠である。
しかし、長いクリック後の動作シーケンス自体が深刻なパフォーマンス上の問題を引き起こす: 大量のデータによって、モデルトレーニングや推論において高い計算コストと非効率性がもたらされる。
従来の手法では、2段階のアプローチを導入することでこの問題に対処するが、完全なシーケンスコンテキストの不完全な利用により、モデルの有効性が損なわれる。
さらに重要なのは、既存の大規模レコメンデーションモデル(LRM)にマルチモーダル埋め込みを統合することで、大きな課題が浮かび上がっています。
これらの問題に対処し、モデルの効率性と精度を高めるために、Deep Multimodal Group Interest Network (DMGIN)を導入する。
ユーザがクリック後の動作シーケンスに様々な動作やタイムスタンプを繰り返す項目が多数含まれていることを考えると、DMGINはマルチモーダル埋め込みを直接導入するのとは対照的に、完全な生涯にわたるクリック後の動作シーケンスをより効果的に再編成するためにマルチモーダルLCM(MLLM)を使用している。
グループ化による潜在的な情報損失を軽減するため、我々は2つの重要な戦略を実装した。
まず、興味統計とグループ内トランスフォーマーの両方を用いてグループ内の振る舞いを分析し、グループ特性を捉える。
第2に、時間的に順序付けられたグループにグループ間トランスフォーマーを適用して、ユーザグループの関心事の進化を捉える。
産業用および公共用両方のデータセットに関する広範な実験により,DMGINの有効性と有効性が確認された。
我々のLBS広告システムにおけるA/Bテストでは、DMGINはCTRを4.7%改善し、1マイルあたりの収益は2.3%改善した。
関連論文リスト
- GEMs: Breaking the Long-Sequence Barrier in Generative Recommendation with a Multi-Stream Decoder [54.64137490632567]
本稿では,長期的履歴からユーザのシーケンスをキャプチャする新しい統一フレームワークを提案する。
GEM(Generative Multi-streamer)は、ユーザのシーケンスを3つのストリームに分割する。
大規模産業データセットに対する大規模な実験により、GEMは推奨精度において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-14T06:42:56Z) - PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - No One Left Behind: How to Exploit the Incomplete and Skewed Multi-Label Data for Conversion Rate Prediction [48.578518946398354]
ほとんどの現実世界のオンライン広告システムでは、広告主は様々な顧客獲得目標を持つ。
一般的な解決策は、マルチタスク学習を使用して、クリック後のデータの統一モデルをトレーニングし、さまざまなターゲットに対する変換率(CVR)を見積もることである。
実際には、CVR予測は、多くの広告主がプライバシやその他の制約により、一部のユーザー変換アクションのみを提出するので、欠落したコンバージョンデータに遭遇することが多い。
論文 参考訳(メタデータ) (2025-12-15T13:14:20Z) - Structurally Refined Graph Transformer for Multimodal Recommendation [13.296555757708298]
構造的に最適化されたマルチモーダルレコメンデーションモデルSRGFormerを提案する。
モデルへのより良い統合のためにトランスフォーマーを変更することで、ユーザの全体的な行動パターンをキャプチャします。
そして,マルチモーダル情報をハイパーグラフ構造に埋め込み,ユーザとアイテム間の局所構造を学習する。
論文 参考訳(メタデータ) (2025-11-01T15:18:00Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping [28.653290360671175]
我々は,マルチモーダルインタラクションのタイプに基づいた,シンプルながら驚くほど効果的なタスクグループ化戦略であるMINTを紹介する。
提案手法は,マルチモーダル命令チューニングにおいて,既存のタスクグループ化ベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-06-02T22:55:23Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [51.497338578427915]
大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。
DrICLは、textitDifferentiatedとtextitReweightingの目的によってモデル性能を向上させる新しい最適化手法である。
textitMany-Shot ICL Benchmark (ICL-50) は最大8,000トークンのシーケンスで1から350までのショット数をカバーした50タスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:44:48Z) - TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou [28.809014888174932]
SIMの強化であるTWIN-V2を導入し、ライフサイクルの振る舞いを圧縮し、より正確で多様なユーザの興味を明らかにする。
効率的なデプロイメントフレームワークの下では、TWIN-V2が主要なトラフィックにデプロイされ、Kuaishouでは毎日数億人のアクティブユーザを提供する。
論文 参考訳(メタデータ) (2024-07-23T10:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。