論文の概要: MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling
- arxiv url: http://arxiv.org/abs/2512.07216v1
- Date: Mon, 08 Dec 2025 06:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.747056
- Title: MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling
- Title(参考訳): MUSE: 生涯ユーザー関心モデリングのためのシンプルで効果的なマルチモーダル検索ベースのフレームワーク
- Authors: Bin Wu, Feifan Yang, Zhangming Chan, Yu-Ran Gu, Jiawei Feng, Chao Yi, Xiang-Rong Sheng, Han Zhu, Jian Xu, Mang Ye, Bo Zheng,
- Abstract要約: 本稿では、生涯モデリングフレームワークの両段階にわたるマルチモーダル信号の活用方法の体系的分析について述べる。
単純なマルチモーダル検索ベースのフレームワークであるMUSEを提案する。
MUSE は Taobao ディスプレイ広告システムに実装されており,100K 長のユーザ行動シーケンスをモデル化することができる。
- 参考スコア(独自算出の注目度): 48.18456242206804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong user interest modeling is crucial for industrial recommender systems, yet existing approaches rely predominantly on ID-based features, suffering from poor generalization on long-tail items and limited semantic expressiveness. While recent work explores multimodal representations for behavior retrieval in the General Search Unit (GSU), they often neglect multimodal integration in the fine-grained modeling stage -- the Exact Search Unit (ESU). In this work, we present a systematic analysis of how to effectively leverage multimodal signals across both stages of the two-stage lifelong modeling framework. Our key insight is that simplicity suffices in the GSU: lightweight cosine similarity with high-quality multimodal embeddings outperforms complex retrieval mechanisms. In contrast, the ESU demands richer multimodal sequence modeling and effective ID-multimodal fusion to unlock its full potential. Guided by these principles, we propose MUSE, a simple yet effective multimodal search-based framework. MUSE has been deployed in Taobao display advertising system, enabling 100K-length user behavior sequence modeling and delivering significant gains in top-line metrics with negligible online latency overhead. To foster community research, we share industrial deployment practices and open-source the first large-scale dataset featuring ultra-long behavior sequences paired with high-quality multimodal embeddings. Our code and data is available at https://taobao-mm.github.io.
- Abstract(参考訳): 生涯のユーザ関心モデリングは産業のレコメンデーションシステムにとって重要であるが、既存のアプローチはIDベースの特徴に大きく依存している。
最近の研究では、ジェネラルサーチユニット(GSU)における行動検索のためのマルチモーダル表現について検討しているが、細粒度モデリングの段階であるエクサクトサーチユニット(ESU)におけるマルチモーダル統合は無視されることが多い。
本研究では,2段階の寿命モデリングフレームワークの両段階にわたるマルチモーダル信号を効果的に活用する方法を体系的に分析する。
我々の重要な洞察は、GSUにおいて単純さは十分である:高品質なマルチモーダル埋め込みと軽量なコサイン類似性は、複雑な検索機構より優れているということである。
対照的に、ESUはよりリッチなマルチモーダル・シーケンス・モデリングと効果的なID-マルチモーダル・フュージョンを必要としている。
これらの原則に基づき, 単純かつ効果的なマルチモーダル検索基盤であるMUSEを提案する。
MUSEはTaobaoディスプレイ広告システムにデプロイされており、100Kのユーザ行動シーケンスをモデル化し、オンライン遅延のオーバーヘッドを無視できるトップラインメトリクスで大幅に向上する。
コミュニティ研究を促進するために,我々は産業展開の実践を共有し,高品質なマルチモーダル埋め込みと組み合わせた,超長期の動作シーケンスを備えた最初の大規模データセットをオープンソース化した。
私たちのコードとデータはhttps://taobao-mm.github.io.comで公開されています。
関連論文リスト
- MISS: Multi-Modal Tree Indexing and Searching with Lifelong Sequential Behavior for Retrieval Recommendation [14.110932722143643]
大規模産業レコメンデーションシステムは通常、検索とランキングの2段階のパラダイムを採用している。
マルチモーダル・インデックス・ツリーとマルチモーダル・ライフロング・シーケンス・モデリング・モジュールを含むMISS(Multi-modal Indexing and Searching with Lifelong Sequence)を提案する。
論文 参考訳(メタデータ) (2025-08-20T08:22:02Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture [6.928469290518152]
マルチモーダルタスクにJEPA(Joint-Embedding Predictive Architecture)を導入する。
入力埋め込みを出力埋め込み空間に予測器で変換し、次に潜在空間上でクロスモーダルアライメントを実行する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on
Facial Action Unit Detection [12.509298933267225]
本稿では,MCM(Multimodal Channel-Mixing)と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。
このアプローチは、Channel-Mixingモジュールを統合して、5つのうち2つをランダムにドロップする、初期の融合設定に従っている。
このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能も促進し、ロバストな特徴学習をもたらす。
論文 参考訳(メタデータ) (2022-09-25T15:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。