論文の概要: Multimodal Foundation Model-Driven User Interest Modeling and Behavior Analysis on Short Video Platforms
- arxiv url: http://arxiv.org/abs/2509.04751v1
- Date: Fri, 05 Sep 2025 02:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.448793
- Title: Multimodal Foundation Model-Driven User Interest Modeling and Behavior Analysis on Short Video Platforms
- Title(参考訳): ショートビデオプラットフォーム上でのマルチモーダルファウンデーションモデル駆動型ユーザ関心モデリングと行動分析
- Authors: Yushang Zhao, Yike Peng, Li Zhang, Qianyi Sun, Zhihui Zhang, Yingying Zhuang,
- Abstract要約: 本稿では,ユーザ関心モデリングと行動分析のためのマルチモーダル基礎モデルに基づくフレームワークを提案する。
本研究では、動的興味の進化をモデル化するために、視聴、好み、コメントのシーケンスを組み込んだ行動駆動型特徴埋め込み機構を導入する。
その結果, 行動予測精度, 冷間開始ユーザの関心モデリング, クリックスルー率の大幅な改善が示された。
- 参考スコア(独自算出の注目度): 4.393914222141582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid expansion of user bases on short video platforms, personalized recommendation systems are playing an increasingly critical role in enhancing user experience and optimizing content distribution. Traditional interest modeling methods often rely on unimodal data, such as click logs or text labels, which limits their ability to fully capture user preferences in a complex multimodal content environment. To address this challenge, this paper proposes a multimodal foundation model-based framework for user interest modeling and behavior analysis. By integrating video frames, textual descriptions, and background music into a unified semantic space using cross-modal alignment strategies, the framework constructs fine-grained user interest vectors. Additionally, we introduce a behavior-driven feature embedding mechanism that incorporates viewing, liking, and commenting sequences to model dynamic interest evolution, thereby improving both the timeliness and accuracy of recommendations. In the experimental phase, we conduct extensive evaluations using both public and proprietary short video datasets, comparing our approach against multiple mainstream recommendation algorithms and modeling techniques. Results demonstrate significant improvements in behavior prediction accuracy, interest modeling for cold-start users, and recommendation click-through rates. Moreover, we incorporate interpretability mechanisms using attention weights and feature visualization to reveal the model's decision basis under multimodal inputs and trace interest shifts, thereby enhancing the transparency and controllability of the recommendation system.
- Abstract(参考訳): ショートビデオプラットフォームにおけるユーザベースの急速な拡大に伴い、パーソナライズされたレコメンデーションシステムは、ユーザエクスペリエンスの向上とコンテンツ配信の最適化において、ますます重要な役割を担っている。
従来の関心モデリング手法は、クリックログやテキストラベルなど、複雑なマルチモーダルコンテンツ環境において、ユーザの好みを完全に把握する能力を制限するような、一様データに依存することが多い。
この課題に対処するために,ユーザ関心モデリングと行動分析のためのマルチモーダル基礎モデルに基づくフレームワークを提案する。
クロスモーダルアライメント戦略を用いて,ビデオフレーム,テキスト記述,背景音楽を統一意味空間に統合することにより,詳細なユーザ関心ベクトルを構築する。
さらに、動的興味の進化をモデル化するために、視聴、好み、コメントのシーケンスを組み込んだ行動駆動型特徴埋め込み機構を導入し、提案手法のタイムラインと精度を向上する。
実験段階では、パブリックとプロプライエタリの両方のショートビデオデータセットを用いて広範囲な評価を行い、複数の主流推奨アルゴリズムとモデリング技術との比較を行った。
その結果, 行動予測精度, 冷間開始ユーザの関心モデリング, クリックスルー率の大幅な改善が示された。
さらに、注意重みと特徴可視化を用いた解釈可能性機構を導入し、マルチモーダル入力とトレース利子シフトに基づくモデル決定基盤を明らかにすることにより、レコメンデーションシステムの透明性と制御性を向上させる。
関連論文リスト
- ConceptMix++: Leveling the Playing Field in Text-to-Image Benchmarking via Iterative Prompt Optimization [20.935028961216325]
ConceptMix++は、ビジュアルジェネレーション機能からプロンプトのフレーズをアンタングルするフレームワークである。
最適化されたプロンプトは構成生成性能を大幅に向上することを示す。
これらの結果から,厳密なベンチマーク手法が真のモデル能力を著しく過小評価している可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-04T03:27:04Z) - Enhancing Recommendation Explanations through User-Centric Refinement [7.640281193938638]
本稿では、既存の説明可能なレコメンデータモデルによって生成された最初の説明を洗練する新しいパラダイムを提案する。
具体的には,大規模言語モデルに基づくマルチエージェント協調改良フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T12:08:18Z) - Multifaceted User Modeling in Recommendation: A Federated Foundation Models Approach [28.721903315405353]
多面的ユーザモデリングは、きめ細かいパターンを発見し、ユーザデータから表現を学習することを目的としている。
基礎モデルに基づくリコメンデーションに関する最近の研究は、トランスフォーマーアーキテクチャが複雑で非線形なユーザとイテムのインタラクション関係をキャプチャする顕著な能力を強調している。
本稿では,ユーザ・イテムの対話パターンを逐次的にキャプチャする自己認識機構を用いて,レコメンデーションに特化して設計されたトランスフォーマー層を提案する。
論文 参考訳(メタデータ) (2024-12-22T11:00:00Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Retrieval Augmentation via User Interest Clustering [57.63883506013693]
インダストリアルレコメンデータシステムは、ユーザ・イテム・エンゲージメントのパターンに敏感である。
本稿では,ユーザの関心を効率的に構築し,計算コストの低減を図る新しい手法を提案する。
当社のアプローチはMetaの複数の製品に展開されており、ショートフォームビデオ関連の推奨を助長しています。
論文 参考訳(メタデータ) (2024-08-07T16:35:10Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z) - Learning User Representations with Hypercuboids for Recommender Systems [26.80987554753327]
我々のモデルは、空間内の一点ではなく、超立方体としてユーザーの興味を明示的にモデル化する。
ユーザの興味の多様性を捉える能力を高めるために,2種類のハイパークボイドを提案する。
また、ユーザのアクティビティシーケンス(例えば、購入とレート)をキャプチャすることで、ユーザの超立方体学習を促進するために、ニューラルアーキテクチャも提案されている。
論文 参考訳(メタデータ) (2020-11-11T12:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。