論文の概要: MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling
- arxiv url: http://arxiv.org/abs/2502.00321v2
- Date: Sat, 08 Feb 2025 08:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:26:24.425205
- Title: MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling
- Title(参考訳): MIM:ユーザ行動モデリングのためのマルチモーダルコンテンツ興味モデリングパラダイム
- Authors: Bencheng Yan, Si Chen, Shichang Jia, Jianyu Liu, Yueran Liu, Chenghan Fu, Wanxian Guan, Hui Zhao, Xiang Zhang, Kai Zhang, Wenbo Su, Pengjie Wang, Jian Xu, Bo Zheng, Baolin Liu,
- Abstract要約: マルチモーダルコンテンツ興味モデリングパラダイム(MIM)を提案する。
MIMは3つの主要なステージで構成されている。
CTRでは+14.14%、RPMでは+4.12%の大幅な増加を達成した。
- 参考スコア(独自算出の注目度): 27.32474950026696
- License:
- Abstract: Click-Through Rate (CTR) prediction is a crucial task in recommendation systems, online searches, and advertising platforms, where accurately capturing users' real interests in content is essential for performance. However, existing methods heavily rely on ID embeddings, which fail to reflect users' true preferences for content such as images and titles. This limitation becomes particularly evident in cold-start and long-tail scenarios, where traditional approaches struggle to deliver effective results. To address these challenges, we propose a novel Multi-modal Content Interest Modeling paradigm (MIM), which consists of three key stages: Pre-training, Content-Interest-Aware Supervised Fine-Tuning (C-SFT), and Content-Interest-Aware UBM (CiUBM). The pre-training stage adapts foundational models to domain-specific data, enabling the extraction of high-quality multi-modal embeddings. The C-SFT stage bridges the semantic gap between content and user interests by leveraging user behavior signals to guide the alignment of embeddings with user preferences. Finally, the CiUBM stage integrates multi-modal embeddings and ID-based collaborative filtering signals into a unified framework. Comprehensive offline experiments and online A/B tests conducted on the Taobao, one of the world's largest e-commerce platforms, demonstrated the effectiveness and efficiency of MIM method. The method has been successfully deployed online, achieving a significant increase of +14.14% in CTR and +4.12% in RPM, showcasing its industrial applicability and substantial impact on platform performance. To promote further research, we have publicly released the code and dataset at https://pan.quark.cn/s/8fc8ec3e74f3.
- Abstract(参考訳): CTR(Click-Through Rate)予測はレコメンデーションシステム、オンライン検索、広告プラットフォームにおいて重要なタスクであり、ユーザのコンテンツに対する関心を正確に把握することがパフォーマンスに不可欠である。
しかし、既存の手法はIDの埋め込みに大きく依存しており、画像やタイトルなどのコンテンツに対するユーザの真の好みを反映していない。
この制限は、伝統的なアプローチが効果的な結果をもたらすのに苦労するコールドスタートとロングテールのシナリオで特に顕著になる。
これらの課題に対処するため、我々は、事前学習、コンテンツ-関心-意識監視ファインチューニング(C-SFT)、コンテンツ-関心-意識UDM(CiUBM)の3つの主要な段階からなる、新しいマルチモーダルコンテンツ-関心モデリングパラダイム(MIM)を提案する。
事前学習段階は基礎モデルをドメイン固有データに適用し、高品質なマルチモーダル埋め込みの抽出を可能にする。
C-SFTステージは、ユーザの行動信号を活用することで、コンテンツとユーザの関心のセマンティックなギャップを埋め、埋め込みとユーザの好みの整合を導く。
最後に、CiUBMステージは、マルチモーダル埋め込みとIDベースの協調フィルタリング信号を統合フレームワークに統合する。
世界最大のeコマースプラットフォームであるTaobao上で行われた総合的なオフライン実験とオンラインA/Bテストは、MIM法の有効性と効率を実証した。
この方法はオンラインでの展開に成功し、CTRで+14.14%、RPMで+4.12%の大幅な増加を達成した。
さらなる研究を促進するため、コードとデータセットをhttps://pan.quark.cn/s/8fc8ec3e74f3で公開しました。
関連論文リスト
- LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。
提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - MRSE: An Efficient Multi-modality Retrieval System for Large Scale E-commerce [42.3177388371158]
現在の埋め込みベースのRetrieval Systemsは、クエリとアイテムを共有の低次元空間に埋め込む。
本稿では,テキスト,項目画像,ユーザ嗜好を統合したマルチモーダル検索システムMRSEを提案する。
MRSEはオフラインの妥当性が18.9%向上し、オンラインのコアメトリクスが3.7%向上した。
論文 参考訳(メタデータ) (2024-08-27T11:21:19Z) - LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。
本稿ではまず,3つの純LLM手法を用いて,最もキャッチラインを識別する能力について検討する。
LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-03T07:56:58Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z) - Interpretable Deep Learning Model for Online Multi-touch Attribution [14.62385029537631]
本稿では,深層学習モデルとオンラインマルチタッチ属性の解釈のための付加的特徴説明モデルを組み合わせたDeepMTAという新しいモデルを提案する。
MTAの最初の解釈可能なディープラーニングモデルとして、DeepMTAは、顧客ジャーニーにおける3つの重要な特徴について検討している。
実データセットの評価は、提案した変換予測モデルが91%の精度を達成することを示している。
論文 参考訳(メタデータ) (2020-03-26T23:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。