論文の概要: SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2407.10714v1
- Date: Mon, 15 Jul 2024 13:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:11:40.908882
- Title: SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation
- Title(参考訳): SEMINAR:長期連続勧告のためのマルチモーダル関心ネットワークと近似検索
- Authors: Kaiming Shen, Xichen Ding, Zixiang Zheng, Yuqi Gong, Qianqian Li, Zhongyi Liu, Guannan Zhang,
- Abstract要約: 本稿では,SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という,一生涯にわたるマルチモーダルシーケンスモデルを提案する。
具体的には、Pretraining Search Unitと呼ばれるネットワークが、事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イテムペアの寿命のシーケンスを学習する。
マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダルなコードブックベースの製品量子化戦略を提案する。
- 参考スコア(独自算出の注目度): 16.370075234443245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The modeling of users' behaviors is crucial in modern recommendation systems. A lot of research focuses on modeling users' lifelong sequences, which can be extremely long and sometimes exceed thousands of items. These models use the target item to search for the most relevant items from the historical sequence. However, training lifelong sequences in click through rate (CTR) prediction or personalized search ranking (PSR) is extremely difficult due to the insufficient learning problem of ID embedding, especially when the IDs in the lifelong sequence features do not exist in the samples of training dataset. Additionally, existing target attention mechanisms struggle to learn the multi-modal representations of items in the sequence well. The distribution of multi-modal embedding (text, image and attributes) output of user's interacted items are not properly aligned and there exist divergence across modalities. We also observe that users' search query sequences and item browsing sequences can fully depict users' intents and benefit from each other. To address these challenges, we propose a unified lifelong multi-modal sequence model called SEMINAR-Search Enhanced Multi-Modal Interest Network and Approximate Retrieval. Specifically, a network called Pretraining Search Unit (PSU) learns the lifelong sequences of multi-modal query-item pairs in a pretraining-finetuning manner with multiple objectives: multi-modal alignment, next query-item pair prediction, query-item relevance prediction, etc. After pretraining, the downstream model restores the pretrained embedding as initialization and finetunes the network. To accelerate the online retrieval speed of multi-modal embedding, we propose a multi-modal codebook-based product quantization strategy to approximate the exact attention calculati
- Abstract(参考訳): ユーザの行動のモデリングは、現代のレコメンデーションシステムにおいて不可欠である。
多くの研究はユーザーの生涯のシーケンスをモデル化することに焦点を当てており、それは非常に長く、時には何千ものアイテムを超えることもある。
これらのモデルは、対象のアイテムを使用して、履歴シーケンスから最も関連性の高いアイテムを検索する。
しかし,CTR(Click through rate)予測やパーソナライズされた検索ランキング(PSR)のトレーニングは,ID埋め込みの学習問題が不十分なため,特にトレーニングデータセットのサンプルに長寿命特徴のIDが存在しない場合には,極めて困難である。
さらに、既存のターゲットアテンションメカニズムは、シーケンス内のアイテムのマルチモーダル表現をうまく学習するのに苦労する。
ユーザのインタラクションアイテムのマルチモーダル埋め込み(テキスト,画像,属性)出力の分布は適切に一致せず,モダリティにまたがるばらつきが存在する。
また,ユーザの検索クエリシーケンスとアイテムブラウジングシーケンスが,ユーザの意図やメリットを完全に表現できることも確認した。
これらの課題に対処するために、SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という、一貫した寿命のマルチモーダルシーケンスモデルを提案する。
具体的には、PSU(Pretraining Search Unit)と呼ばれるネットワークは、マルチモーダルアライメント、次のクエリ-イムペア予測、クエリ-イム関連予測など、複数目的の事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イムペアの寿命のシーケンスを学習する。
事前トレーニング後、ダウンストリームモデルは、トレーニング済みの埋め込みを初期化として復元し、ネットワークを微調整する。
マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダル・コードブックに基づく製品量子化手法を提案する。
関連論文リスト
- Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou [28.809014888174932]
SIMの強化であるTWIN-V2を導入し、ライフサイクルの振る舞いを圧縮し、より正確で多様なユーザの興味を明らかにする。
効率的なデプロイメントフレームワークの下では、TWIN-V2が主要なトラフィックにデプロイされ、Kuaishouでは毎日数億人のアクティブユーザを提供する。
論文 参考訳(メタデータ) (2024-07-23T10:00:45Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - End-to-end Person Search Sequentially Trained on Aggregated Dataset [1.9766522384767227]
本稿では,検出と特徴抽出を共同で計算するエンド・ツー・エンドのモデルを提案する。
コストのかかるIDアノテーションを使わずに、より多くの歩行者検出データセットを集約することで、共有機能マップがより汎用的であることを示す。
論文 参考訳(メタデータ) (2022-01-24T11:22:15Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。