論文の概要: LEMUR: Large scale End-to-end MUltimodal Recommendation
- arxiv url: http://arxiv.org/abs/2511.10962v2
- Date: Mon, 17 Nov 2025 11:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.587962
- Title: LEMUR: Large scale End-to-end MUltimodal Recommendation
- Title(参考訳): LEMUR: 大規模エンドツーエンド MUltimodal Recommendation
- Authors: Xintian Han, Honggang Chen, Quan Lin, Jingyue Gao, Xiangyuan Ren, Lifei Zhu, Zhisheng Ye, Shikang Wu, XiongHang Xie, Xiaochu Gan, Bingzheng Wei, Peng Xu, Zhe Wang, Yuchao Zheng, Jingjian Lin, Di Wu, Junfeng Ge,
- Abstract要約: 生データからエンドツーエンドにトレーニングした,初の大規模マルチモーダルレコメンデーションシステムであるLEMURを提案する。
実世界の産業シナリオにおけるエンド・ツー・エンドのマルチモーダル・レコメンデーションの優位性を検証した。
- 参考スコア(独自算出の注目度): 16.60136276734522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional ID-based recommender systems often struggle with cold-start and generalization challenges. Multimodal recommendation systems, which leverage textual and visual data, offer a promising solution to mitigate these issues. However, existing industrial approaches typically adopt a two-stage training paradigm: first pretraining a multimodal model, then applying its frozen representations to train the recommendation model. This decoupled framework suffers from misalignment between multimodal learning and recommendation objectives, as well as an inability to adapt dynamically to new data. To address these limitations, we propose LEMUR, the first large-scale multimodal recommender system trained end-to-end from raw data. By jointly optimizing both the multimodal and recommendation components, LEMUR ensures tighter alignment with downstream objectives while enabling real-time parameter updates. Constructing multimodal sequential representations from user history often entails prohibitively high computational costs. To alleviate this bottleneck, we propose a novel memory bank mechanism that incrementally accumulates historical multimodal representations throughout the training process. After one month of deployment in Douyin Search, LEMUR has led to a 0.843% reduction in query change rate decay and a 0.81% improvement in QAUC. Additionally, LEMUR has shown significant gains across key offline metrics for Douyin Advertisement. Our results validate the superiority of end-to-end multimodal recommendation in real-world industrial scenarios.
- Abstract(参考訳): 従来のIDベースのレコメンデータシステムは、コールドスタートや一般化の課題に悩まされることが多い。
テキストおよび視覚データを活用するマルチモーダルレコメンデーションシステムは、これらの問題を緩和するための有望な解決策を提供する。
しかしながら、既存の産業的アプローチでは、2段階のトレーニングパラダイムが一般的である。まずはマルチモーダルモデルの事前トレーニングを行い、次にその凍結表現を適用してレコメンデーションモデルをトレーニングする。
この分離されたフレームワークは、マルチモーダル学習と推奨目的のミスアライメントに悩まされ、新しいデータに動的に適応できない。
これらの制約に対処するため、生データからエンドツーエンドにトレーニングされた最初の大規模マルチモーダルレコメンデータシステムであるLEMURを提案する。
マルチモーダルコンポーネントとレコメンデーションコンポーネントの両方を共同で最適化することにより、LEMURは、リアルタイムパラメータ更新を可能にしながら、下流の目的とのより緊密な整合性を確保する。
ユーザ履歴からマルチモーダルなシーケンシャルな表現を構築するには、高額な計算コストが伴うことが多い。
このボトルネックを緩和するために、トレーニングプロセスを通して歴史的マルチモーダル表現を漸進的に蓄積する新しいメモリバンク機構を提案する。
1ヶ月のDouyin Searchデプロイの後、LEMURはクエリ変更率の低下を0.843%削減し、QAUCは0.81%改善した。
さらに、LEMURはDouyin氏にとって重要なオフラインメトリクス間で大きな利益を上げています。
実世界の産業シナリオにおけるエンド・ツー・エンドのマルチモーダル・レコメンデーションの優位性を検証した。
関連論文リスト
- HyMiRec: A Hybrid Multi-interest Learning Framework for LLM-based Sequential Recommendation [24.720767926024433]
HyMiRecは、大規模言語モデルのためのハイブリッドシーケンシャルレコメンデーションフレームワークである。
長いユーザシーケンスから粗い関心埋め込みを抽出し、洗練された関心埋め込みをキャプチャするためのLLMベースのレコメンデータを抽出する。
ユーザの多様な嗜好をモデル化するために,不整合型多目的学習モジュールを設計する。
論文 参考訳(メタデータ) (2025-10-15T16:45:59Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - A Novel Mamba-based Sequential Recommendation Method [4.941272356564765]
逐次レコメンデーション(SR)は、次のアクションを予測するためにユーザアクティビティをエンコードする。
トランスフォーマーベースのモデルはシーケンシャルレコメンデーションに有効であることが証明されているが、トランスフォーマーにおける自己アテンションモジュールの複雑さは、シーケンス長と2次にスケールする。
複数の低次元マンバ層と完全連結層を用いる新しいマルチヘッド潜在マンバアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-10T02:43:19Z) - HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。
提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文 参考訳(メタデータ) (2025-03-12T06:01:05Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Pre-train, Align, and Disentangle: Empowering Sequential Recommendation with Large Language Models [26.331324261505486]
Sequential Recommendation (SR) は、ユーザの過去のインタラクションにおけるシーケンシャルなパターンを活用して、ユーザの好みを正確に追跡することを目的としている。
大規模言語モデル(LLM)の有効性が証明されているにもかかわらず、商用レコメンデータシステムへの統合は妨げられている。
我々は,LLMを用いたSRモデルを強化するために,新しいPri-train,Align,Disentangle(PAD)フレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-05T12:17:56Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - LLM4MSR: An LLM-Enhanced Paradigm for Multi-Scenario Recommendation [52.55639178180821]
マルチシナリオレコメンデーション(MSR)の研究は注目されており、すべてのシナリオのデータを使用してレコメンデーションのパフォーマンスを同時に改善している。
既存の手法では、不十分なシナリオ知識を統合し、パーソナライズされたクロスシナリオの嗜好を無視する傾向があり、それによってサブ最適パフォーマンスがもたらされる。
本稿では,これらのギャップを埋めるために,大規模言語モデル (LLM) 拡張パラダイム LLM4MSR を提案する。
論文 参考訳(メタデータ) (2024-06-18T11:59:36Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Sample-Rank: Weak Multi-Objective Recommendations Using Rejection
Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。
提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文 参考訳(メタデータ) (2020-08-24T09:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。