論文の概要: Efficient Multimodal Streaming Recommendation via Expandable Side Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2508.05993v1
- Date: Fri, 08 Aug 2025 04:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.070472
- Title: Efficient Multimodal Streaming Recommendation via Expandable Side Mixture-of-Experts
- Title(参考訳): 拡張性サイドミックス・オブ・エクスプットによる効率的なマルチモーダルストリーミング勧告
- Authors: Yunke Qu, Liang Qu, Tong Chen, Quoc Viet Hung Nguyen, Hongzhi Yin,
- Abstract要約: マルチモーダルストリーミングレコメンダシステムは、ユーザの関心が時間とともに変化する現実世界のアプリケーションに広くデプロイされている。
マルチモーダルストリーミングレコメンデーションのためのメモリ効率の高いフレームワークであるXSMoE(Expandable Side Mixture-of-Experts)を提案する。
XSMoEは、凍結したトレーニング済みエンコーダに軽量なサイドチューニングモジュールをアタッチし、ユーザのフィードバックの進化に応じて徐々に拡張する。
- 参考スコア(独自算出の注目度): 40.79898677069334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming recommender systems (SRSs) are widely deployed in real-world applications, where user interests shift and new items arrive over time. As a result, effectively capturing users' latest preferences is challenging, as interactions reflecting recent interests are limited and new items often lack sufficient feedback. A common solution is to enrich item representations using multimodal encoders (e.g., BERT or ViT) to extract visual and textual features. However, these encoders are pretrained on general-purpose tasks: they are not tailored to user preference modeling, and they overlook the fact that user tastes toward modality-specific features such as visual styles and textual tones can also drift over time. This presents two key challenges in streaming scenarios: the high cost of fine-tuning large multimodal encoders, and the risk of forgetting long-term user preferences due to continuous model updates. To tackle these challenges, we propose Expandable Side Mixture-of-Experts (XSMoE), a memory-efficient framework for multimodal streaming recommendation. XSMoE attaches lightweight side-tuning modules consisting of expandable expert networks to frozen pretrained encoders and incrementally expands them in response to evolving user feedback. A gating router dynamically combines expert and backbone outputs, while a utilization-based pruning strategy maintains model compactness. By learning new patterns through expandable experts without overwriting previously acquired knowledge, XSMoE effectively captures both cold start and shifting preferences in multimodal features. Experiments on three real-world datasets demonstrate that XSMoE outperforms state-of-the-art baselines in both recommendation quality and computational efficiency.
- Abstract(参考訳): ストリーミングレコメンデータシステム(SRS)は、ユーザの関心がシフトし、新しいアイテムが時間とともにやってくる現実世界のアプリケーションに広くデプロイされている。
その結果、近年の関心を反映したインタラクションが制限され、新しい項目には十分なフィードバックが欠けている場合が多いため、ユーザの最新の好みを効果的に捉えることは困難である。
一般的な解決策は、マルチモーダルエンコーダ(例えばBERTやViT)を使ってアイテム表現を豊かにすることで、視覚的およびテキスト的特徴を抽出することである。
しかし、これらのエンコーダは、ユーザ好みのモデリングには適さないため、視覚スタイルやテキストトーンといったモダリティ固有の特徴に対するユーザの嗜好も時間の経過とともにドリフトできるという事実を無視する、汎用的なタスクで事前訓練されている。
大規模なマルチモーダルエンコーダを微調整するコストが高いことと、継続的モデル更新による長期的なユーザの好みを忘れるリスクだ。
これらの課題に対処するために,マルチモーダルストリーミングレコメンデーションのためのメモリ効率の高いフレームワークであるExpandable Side Mixture-of-Experts (XSMoE)を提案する。
XSMoEは、拡張可能な専門家ネットワークからなる軽量なサイドチューニングモジュールをフリーズしたエンコーダに取り付け、ユーザのフィードバックの進化に応じて徐々に拡張する。
ゲーティングルータはエキスパートとバックボーンの出力を動的に結合し、利用ベースのプルーニング戦略はモデルコンパクト性を維持する。
事前に取得した知識を上書きすることなく、拡張可能な専門家を通じて新しいパターンを学ぶことで、XSMoEは、マルチモーダル機能におけるコールドスタートとシフトの両方を効果的にキャプチャする。
3つの実世界のデータセットの実験では、XSMoEは推奨品質と計算効率の両方において最先端のベースラインを上回っている。
関連論文リスト
- M^2VAE: Multi-Modal Multi-View Variational Autoencoder for Cold-start Item Recommendation [14.644213412218742]
コールドスタートアイテムレコメンデーションはレコメンデーションシステムにおいて重要な課題である。
既存の方法は、コールドスタート問題を緩和するためにマルチモーダルコンテンツを利用する。
本稿では,属性とマルチモーダルの特徴の共通性とユニークなビューをモデル化する上での課題に対処する生成モデルを提案する。
論文 参考訳(メタデータ) (2025-08-01T09:16:26Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - HistLLM: A Unified Framework for LLM-Based Multimodal Recommendation with User History Encoding and Compression [33.34435467588446]
HistLLMは、ユーザ履歴を通じてテキストと視覚機能を統合する革新的なフレームワークである。
モジュール (UHEM) は、ユーザ履歴のインタラクションを単一のトークン表現に圧縮する。
提案手法の有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-04-14T12:01:11Z) - Enhancing User Intent for Recommendation Systems via Large Language Models [0.0]
DUIPはLSTMネットワークとLLM(Large Language Models)を組み合わせた新しいフレームワークで、ユーザの意図を動的に把握し、パーソナライズされたアイテムレコメンデーションを生成する。
この結果から,DUIPは次世代レコメンデーションシステムにとって有望なアプローチであり,クロスモーダルレコメンデーションとスケーラビリティのさらなる向上の可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-18T20:35:03Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - LLM-ESR: Large Language Models Enhancement for Long-tailed Sequential Recommendation [58.04939553630209]
現実世界のシステムでは、ほとんどのユーザーはほんの一握りのアイテムしか扱わないが、ほとんどのアイテムは滅多に消費されない。
これら2つの課題は、ロングテールユーザーとロングテールアイテムの課題として知られ、しばしば既存のシークエンシャルレコメンデーションシステムに困難をもたらす。
本稿では,これらの課題に対処するため,Large Language Models Enhancement framework for Sequential Recommendation (LLM-ESR)を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:24:42Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。