論文の概要: Dreaming User Multimodal Representation Guided by The Platonic Representation Hypothesis for Micro-Video Recommendation
- arxiv url: http://arxiv.org/abs/2410.03538v2
- Date: Sat, 19 Oct 2024 13:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:39:44.738906
- Title: Dreaming User Multimodal Representation Guided by The Platonic Representation Hypothesis for Micro-Video Recommendation
- Title(参考訳): マイクロビデオレコメンデーションのためのプラトン表現仮説に基づくドリームユーザマルチモーダル表現
- Authors: Chengzhi Lin, Hezheng Lin, Shuchang Liu, Cangguang Ruan, LingJing Xu, Dezhao Yang, Chuyuan Wang, Yongqi Liu,
- Abstract要約: マルチモーダ空間におけるリアルタイムなユーザ表現を実現するために,ユーザの履歴行動を活用する新しいアプローチであるDreamUMMを紹介する。
DreamUMMは、ユーザビデオの好みとマルチモーダルな類似性を関連づけたクローズドフォームのソリューションを採用しており、ユーザ興味が統一マルチモーダル空間で効果的に表現できるという仮説を立てている。
本研究は,マルチモーダル空間に居住するユーザ関心表現の可能性を支持する実証的証拠を提供することにより,表現収束の継続的な探索に寄与する。
- 参考スコア(独自算出の注目度): 1.8604168495693911
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of online micro-video platforms has underscored the necessity for advanced recommender systems to mitigate information overload and deliver tailored content. Despite advancements, accurately and promptly capturing dynamic user interests remains a formidable challenge. Inspired by the Platonic Representation Hypothesis, which posits that different data modalities converge towards a shared statistical model of reality, we introduce DreamUMM (Dreaming User Multi-Modal Representation), a novel approach leveraging user historical behaviors to create real-time user representation in a multimoda space. DreamUMM employs a closed-form solution correlating user video preferences with multimodal similarity, hypothesizing that user interests can be effectively represented in a unified multimodal space. Additionally, we propose Candidate-DreamUMM for scenarios lacking recent user behavior data, inferring interests from candidate videos alone. Extensive online A/B tests demonstrate significant improvements in user engagement metrics, including active days and play count. The successful deployment of DreamUMM in two micro-video platforms with hundreds of millions of daily active users, illustrates its practical efficacy and scalability in personalized micro-video content delivery. Our work contributes to the ongoing exploration of representational convergence by providing empirical evidence supporting the potential for user interest representations to reside in a multimodal space.
- Abstract(参考訳): オンラインのマイクロビデオプラットフォームの普及は、情報過負荷を軽減し、適切なコンテンツを提供するための高度なレコメンデーションシステムの必要性を浮き彫りにした。
進歩にも拘わらず、ダイナミックなユーザーの興味を正確にかつ迅速に捉えることは、依然として困難な課題だ。
異なるデータモダリティが共有統計モデルに収束することを示すプラトン表現仮説(Platonic Representation hypothesis)に着想を得て,DreamUMM(Dreaming User Multi-Modal Representation)を紹介した。
DreamUMMは、ユーザビデオの好みとマルチモーダルな類似性を関連づけたクローズドフォームのソリューションを採用しており、ユーザ興味が統一マルチモーダル空間で効果的に表現できるという仮説を立てている。
また,近年のユーザ行動データに欠けるシナリオに対して,候補ビデオのみから興味を引いたCandidate-DreamUMMを提案する。
大規模なオンラインA/Bテストでは、アクティブデイやプレイ数など、ユーザエンゲージメントの指標が大幅に改善されている。
DreamUMMは、毎日数億人のアクティブユーザーを持つ2つのマイクロビデオプラットフォームにデプロイされ、パーソナライズされたマイクロビデオコンテンツ配信における実用性とスケーラビリティを示している。
本研究は,マルチモーダル空間におけるユーザ関心表現の可能性を支える実証的証拠を提供することにより,表現収束の探求に寄与する。
関連論文リスト
- MUFM: A Mamba-Enhanced Feedback Model for Micro Video Popularity Prediction [1.7040391128945196]
ユーザフィードバックと動的イベントインタラクションにおける長期的依存関係をキャプチャするフレームワークを導入する。
大規模なオープンソースマルチモーダルデータセットに関する我々の実験は、我々のモデルが最先端のアプローチを23.2%上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-23T05:13:27Z) - MMBee: Live Streaming Gift-Sending Recommendations via Multi-Modal Fusion and Behaviour Expansion [18.499672566131355]
ギフトインタラクションの正確なモデリングは、ユーザのエクスペリエンスを向上するだけでなく、ストリーマーの収益も増大させる。
従来のレコメンデーション問題として,ライブストリーミングギフト予測に関する先行研究がある。
実時間マルチモーダル・フュージョンとビヘイビア・エクスパンジョンに基づくMMBeeを提案する。
論文 参考訳(メタデータ) (2024-06-15T04:59:00Z) - SoMeR: Multi-View User Representation Learning for Social Media [1.7949335303516192]
本稿では,ソーシャルメディアのユーザ表現学習フレームワークであるSoMeRを提案する。
SoMeRは、ユーザ投稿ストリームをタイムスタンプ付きテキスト機能のシーケンスとしてエンコードし、トランスフォーマーを使用してプロファイルデータと共にそれを埋め込み、リンク予測とコントラスト学習の目標を共同でトレーニングする。
1)類似コンテンツを同時に投稿するユーザを検出することによって、協調的な影響操作に関わる不正確なアカウントを同定し、2)異なる信念を持つユーザがより遠くへ移動する様子を定量化して、主要なイベント後のオンライン議論における偏光の増大を測定する。
論文 参考訳(メタデータ) (2024-05-02T22:26:55Z) - Scaling User Modeling: Large-scale Online User Representations for Ads Personalization in Meta [25.100342052990793]
Scaling User Modeling (SUM)はMetaの広告ランキングシステムに広くデプロイされているフレームワークである。
これまでSUMはMetaの数百の広告ランキングモデルでローンチされ、毎日数十億のユーザーリクエストを処理する。
論文 参考訳(メタデータ) (2023-11-16T03:47:48Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Empowering General-purpose User Representation with Full-life Cycle
Behavior Modeling [11.698166058448555]
本稿では,この課題に対処するために,フルライフサイクルユーザ表現モデル(LURM)と呼ばれる新しいフレームワークを提案する。
LURMは2つのカスケードサブモデルで構成されている: (I) Bag-of-Interests (BoI) は、任意の期間におけるユーザの振る舞いを超高次元のスパースベクトル(例:105)にエンコードする。
SMENは、ユーザ関心の異なる側面を学習できる新しいマルチアンカーモジュールの恩恵を受け、ほぼ次元の削減を実現している。
論文 参考訳(メタデータ) (2021-10-20T08:24:44Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z) - Predicting the Popularity of Micro-videos with Multimodal Variational
Encoder-Decoder Framework [54.194340961353944]
マイクロビデオ人気タスクのためのマルチモーダル変分エンコーダ・デコーダフレームワークを提案する。
MMVEDは、その人気レベルに情報を与えるマイクロビデオの埋め込みを学習する。
Xiguaから収集した公開データセットとデータセットで実施された実験は、提案したMMVEDフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-28T06:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。