論文の概要: Enhancing Taobao Display Advertising with Multimodal Representations: Challenges, Approaches and Insights
- arxiv url: http://arxiv.org/abs/2407.19467v1
- Date: Sun, 28 Jul 2024 11:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:02:25.094892
- Title: Enhancing Taobao Display Advertising with Multimodal Representations: Challenges, Approaches and Insights
- Title(参考訳): マルチモーダル表現によるタオバオディスプレイ広告の強化--課題,アプローチ,展望
- Authors: Xiang-Rong Sheng, Feifan Yang, Litong Gong, Biao Wang, Zhangming Chan, Yujing Zhang, Yueyao Cheng, Yong-Nan Zhu, Tiezheng Ge, Han Zhu, Yuning Jiang, Jian Xu, Bo Zheng,
- Abstract要約: マルチモーダルデータを利用したレコメンデーション精度向上のためのアプローチを検討する。
本稿では,マルチモーダル表現の事前学習や,これらの表現を既存のIDベースモデルと統合する2段階フレームワークを提案する。
2023年中頃のマルチモーダル表現の統合以降,Taobaoディスプレイ広告システムにおいて,大幅な性能向上が見られた。
- 参考スコア(独自算出の注目度): 38.59216578324812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recognized potential of multimodal data to improve model accuracy, many large-scale industrial recommendation systems, including Taobao display advertising system, predominantly depend on sparse ID features in their models. In this work, we explore approaches to leverage multimodal data to enhance the recommendation accuracy. We start from identifying the key challenges in adopting multimodal data in a manner that is both effective and cost-efficient for industrial systems. To address these challenges, we introduce a two-phase framework, including: 1) the pre-training of multimodal representations to capture semantic similarity, and 2) the integration of these representations with existing ID-based models. Furthermore, we detail the architecture of our production system, which is designed to facilitate the deployment of multimodal representations. Since the integration of multimodal representations in mid-2023, we have observed significant performance improvements in Taobao display advertising system. We believe that the insights we have gathered will serve as a valuable resource for practitioners seeking to leverage multimodal data in their systems.
- Abstract(参考訳): モデル精度を向上させるためのマルチモーダルデータの可能性は認識されているが、タオオディスプレイ広告システムを含む多くの大規模産業推薦システムは、モデル内のスパースID機能に大きく依存している。
本研究では,マルチモーダルデータを利用したレコメンデーション精度の向上に向けたアプローチについて検討する。
産業システムにとって効果的かつ費用効率のよい方法で、マルチモーダルデータを採用する上で重要な課題を特定することから始めます。
これらの課題に対処するために、以下の2段階のフレームワークを導入します。
1)意味的類似性を捉えるためのマルチモーダル表現の事前訓練
2)これらの表現を既存のIDベースモデルと統合する。
さらに、マルチモーダル表現の展開を容易にするために設計された本運用システムのアーキテクチャについて詳述する。
2023年中頃のマルチモーダル表現の統合以降,Taobaoディスプレイ広告システムにおいて,大幅な性能向上が見られた。
私たちが収集した洞察は,システム内のマルチモーダルデータを活用する実践者にとって,貴重なリソースになると思います。
関連論文リスト
- Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation [9.506245109666907]
商品やサービスを特徴付ける多面的機能は、オンライン販売プラットフォームにおいて、各顧客に影響を与える可能性がある。
一般的なマルチモーダルレコメンデーションパイプラインは、(i)マルチモーダルな特徴の抽出、(ii)レコメンデーションタスクに適したハイレベルな表現の精製、(iv)ユーザイテムスコアの予測を含む。
本論文は,マルチモーダルレコメンデータシステムに対する大規模ベンチマークを行う最初の試みとして,特にマルチモーダル抽出器に着目したものである。
論文 参考訳(メタデータ) (2024-09-24T08:29:10Z) - Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond [48.43910061720815]
マルチモーダル生成AIは、学術と産業の両方で注目を集めている。
理解と生成の両方に統一されたモデルを持つことは可能か?
論文 参考訳(メタデータ) (2024-09-23T13:16:09Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation [9.720586396359906]
既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。
本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。
UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-29T11:04:31Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Multi-Tower Multi-Interest Recommendation with User Representation Repel [0.9867914513513453]
本稿では,ユーザ表現を補う新しい多層多目的フレームワークを提案する。
複数の大規模産業データセットにまたがる実験結果から,提案手法の有効性と一般化性が確認された。
論文 参考訳(メタデータ) (2024-03-08T07:36:14Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。