論文の概要: SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2407.10714v1
- Date: Mon, 15 Jul 2024 13:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:11:40.908882
- Title: SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation
- Title(参考訳): SEMINAR:長期連続勧告のためのマルチモーダル関心ネットワークと近似検索
- Authors: Kaiming Shen, Xichen Ding, Zixiang Zheng, Yuqi Gong, Qianqian Li, Zhongyi Liu, Guannan Zhang,
- Abstract要約: 本稿では,SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という,一生涯にわたるマルチモーダルシーケンスモデルを提案する。
具体的には、Pretraining Search Unitと呼ばれるネットワークが、事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イテムペアの寿命のシーケンスを学習する。
マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダルなコードブックベースの製品量子化戦略を提案する。
- 参考スコア(独自算出の注目度): 16.370075234443245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The modeling of users' behaviors is crucial in modern recommendation systems. A lot of research focuses on modeling users' lifelong sequences, which can be extremely long and sometimes exceed thousands of items. These models use the target item to search for the most relevant items from the historical sequence. However, training lifelong sequences in click through rate (CTR) prediction or personalized search ranking (PSR) is extremely difficult due to the insufficient learning problem of ID embedding, especially when the IDs in the lifelong sequence features do not exist in the samples of training dataset. Additionally, existing target attention mechanisms struggle to learn the multi-modal representations of items in the sequence well. The distribution of multi-modal embedding (text, image and attributes) output of user's interacted items are not properly aligned and there exist divergence across modalities. We also observe that users' search query sequences and item browsing sequences can fully depict users' intents and benefit from each other. To address these challenges, we propose a unified lifelong multi-modal sequence model called SEMINAR-Search Enhanced Multi-Modal Interest Network and Approximate Retrieval. Specifically, a network called Pretraining Search Unit (PSU) learns the lifelong sequences of multi-modal query-item pairs in a pretraining-finetuning manner with multiple objectives: multi-modal alignment, next query-item pair prediction, query-item relevance prediction, etc. After pretraining, the downstream model restores the pretrained embedding as initialization and finetunes the network. To accelerate the online retrieval speed of multi-modal embedding, we propose a multi-modal codebook-based product quantization strategy to approximate the exact attention calculati
- Abstract(参考訳): ユーザの行動のモデリングは、現代のレコメンデーションシステムにおいて不可欠である。
多くの研究はユーザーの生涯のシーケンスをモデル化することに焦点を当てており、それは非常に長く、時には何千ものアイテムを超えることもある。
これらのモデルは、対象のアイテムを使用して、履歴シーケンスから最も関連性の高いアイテムを検索する。
しかし,CTR(Click through rate)予測やパーソナライズされた検索ランキング(PSR)のトレーニングは,ID埋め込みの学習問題が不十分なため,特にトレーニングデータセットのサンプルに長寿命特徴のIDが存在しない場合には,極めて困難である。
さらに、既存のターゲットアテンションメカニズムは、シーケンス内のアイテムのマルチモーダル表現をうまく学習するのに苦労する。
ユーザのインタラクションアイテムのマルチモーダル埋め込み(テキスト,画像,属性)出力の分布は適切に一致せず,モダリティにまたがるばらつきが存在する。
また,ユーザの検索クエリシーケンスとアイテムブラウジングシーケンスが,ユーザの意図やメリットを完全に表現できることも確認した。
これらの課題に対処するために、SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という、一貫した寿命のマルチモーダルシーケンスモデルを提案する。
具体的には、PSU(Pretraining Search Unit)と呼ばれるネットワークは、マルチモーダルアライメント、次のクエリ-イムペア予測、クエリ-イム関連予測など、複数目的の事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イムペアの寿命のシーケンスを学習する。
事前トレーニング後、ダウンストリームモデルは、トレーニング済みの埋め込みを初期化として復元し、ネットワークを微調整する。
マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダル・コードブックに基づく製品量子化手法を提案する。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Hierarchical Time-Aware Mixture of Experts for Multi-Modal Sequential Recommendation [19.47124940518026]
マルチモーダルシーケンスレコメンデーション(HM4SR)の専門家の階層的時間認識混合を提案する。
まず、Interactive MoEと名づけられたMoEは、各項目のマルチモーダルデータから本質的なユーザ関心関連情報を抽出する。
テンポラルモエと呼ばれる第2のMoEは、モダリティ符号化においてタイムスタンプから明示的な時間的埋め込みを導入することで、ユーザの動的関心を捉える。
論文 参考訳(メタデータ) (2025-01-24T06:26:50Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。