Fugu-MT 論文翻訳(概要): SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation

論文の概要: SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation

arxiv url: http://arxiv.org/abs/2407.10714v1
Date: Mon, 15 Jul 2024 13:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 15:11:40.908882
Title: SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation
Title（参考訳）: SEMINAR:長期連続勧告のためのマルチモーダル関心ネットワークと近似検索
Authors: Kaiming Shen, Xichen Ding, Zixiang Zheng, Yuqi Gong, Qianqian Li, Zhongyi Liu, Guannan Zhang,
Abstract要約: 本稿では,SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という,一生涯にわたるマルチモーダルシーケンスモデルを提案する。具体的には、Pretraining Search Unitと呼ばれるネットワークが、事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イテムペアの寿命のシーケンスを学習する。マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダルなコードブックベースの製品量子化戦略を提案する。
参考スコア（独自算出の注目度）: 16.370075234443245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The modeling of users' behaviors is crucial in modern recommendation systems. A lot of research focuses on modeling users' lifelong sequences, which can be extremely long and sometimes exceed thousands of items. These models use the target item to search for the most relevant items from the historical sequence. However, training lifelong sequences in click through rate (CTR) prediction or personalized search ranking (PSR) is extremely difficult due to the insufficient learning problem of ID embedding, especially when the IDs in the lifelong sequence features do not exist in the samples of training dataset. Additionally, existing target attention mechanisms struggle to learn the multi-modal representations of items in the sequence well. The distribution of multi-modal embedding (text, image and attributes) output of user's interacted items are not properly aligned and there exist divergence across modalities. We also observe that users' search query sequences and item browsing sequences can fully depict users' intents and benefit from each other. To address these challenges, we propose a unified lifelong multi-modal sequence model called SEMINAR-Search Enhanced Multi-Modal Interest Network and Approximate Retrieval. Specifically, a network called Pretraining Search Unit (PSU) learns the lifelong sequences of multi-modal query-item pairs in a pretraining-finetuning manner with multiple objectives: multi-modal alignment, next query-item pair prediction, query-item relevance prediction, etc. After pretraining, the downstream model restores the pretrained embedding as initialization and finetunes the network. To accelerate the online retrieval speed of multi-modal embedding, we propose a multi-modal codebook-based product quantization strategy to approximate the exact attention calculati
Abstract（参考訳）: ユーザの行動のモデリングは、現代のレコメンデーションシステムにおいて不可欠である。多くの研究はユーザーの生涯のシーケンスをモデル化することに焦点を当てており、それは非常に長く、時には何千ものアイテムを超えることもある。これらのモデルは、対象のアイテムを使用して、履歴シーケンスから最も関連性の高いアイテムを検索する。しかし,CTR(Click through rate)予測やパーソナライズされた検索ランキング(PSR)のトレーニングは,ID埋め込みの学習問題が不十分なため,特にトレーニングデータセットのサンプルに長寿命特徴のIDが存在しない場合には,極めて困難である。さらに、既存のターゲットアテンションメカニズムは、シーケンス内のアイテムのマルチモーダル表現をうまく学習するのに苦労する。ユーザのインタラクションアイテムのマルチモーダル埋め込み(テキスト,画像,属性)出力の分布は適切に一致せず,モダリティにまたがるばらつきが存在する。また,ユーザの検索クエリシーケンスとアイテムブラウジングシーケンスが,ユーザの意図やメリットを完全に表現できることも確認した。これらの課題に対処するために、SEMINAR-Search Enhanced Multi-Modal Interest Network と Approximate Retrieval という、一貫した寿命のマルチモーダルシーケンスモデルを提案する。具体的には、PSU(Pretraining Search Unit)と呼ばれるネットワークは、マルチモーダルアライメント、次のクエリ-イムペア予測、クエリ-イム関連予測など、複数目的の事前トレーニング-ファインタニング方式で、マルチモーダルクエリ-イムペアの寿命のシーケンスを学習する。事前トレーニング後、ダウンストリームモデルは、トレーニング済みの埋め込みを初期化として復元し、ネットワークを微調整する。マルチモーダル埋め込みのオンライン検索速度を高速化するために,マルチモーダル・コードブックに基づく製品量子化手法を提案する。

関連論文リスト

Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文参考訳（メタデータ） (2025-08-25T15:38:56Z)
MISS: Multi-Modal Tree Indexing and Searching with Lifelong Sequential Behavior for Retrieval Recommendation [14.110932722143643]
大規模産業レコメンデーションシステムは通常、検索とランキングの2段階のパラダイムを採用している。マルチモーダル・インデックス・ツリーとマルチモーダル・ライフロング・シーケンス・モデリング・モジュールを含むMISS(Multi-modal Indexing and Searching with Lifelong Sequence)を提案する。
論文参考訳（メタデータ） (2025-08-20T08:22:02Z)
Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-04-15T17:35:56Z)
Hierarchical Time-Aware Mixture of Experts for Multi-Modal Sequential Recommendation [19.47124940518026]
マルチモーダルシーケンスレコメンデーション(HM4SR)の専門家の階層的時間認識混合を提案する。まず、Interactive MoEと名づけられたMoEは、各項目のマルチモーダルデータから本質的なユーザ関心関連情報を抽出する。テンポラルモエと呼ばれる第2のMoEは、モダリティ符号化においてタイムスタンプから明示的な時間的埋め込みを導入することで、ユーザの動的関心を捉える。
論文参考訳（メタデータ） (2025-01-24T06:26:50Z)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳（メタデータ） (2024-12-14T06:33:53Z)
Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文参考訳（メタデータ） (2024-11-22T15:29:05Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou [28.809014888174932]
SIMの強化であるTWIN-V2を導入し、ライフサイクルの振る舞いを圧縮し、より正確で多様なユーザの興味を明らかにする。効率的なデプロイメントフレームワークの下では、TWIN-V2が主要なトラフィックにデプロイされ、Kuaishouでは毎日数億人のアクティブユーザを提供する。
論文参考訳（メタデータ） (2024-07-23T10:00:45Z)
MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文参考訳（メタデータ） (2023-08-22T04:06:56Z)
Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-05-08T21:48:17Z)
Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文参考訳（メタデータ） (2022-02-01T06:52:40Z)
End-to-end Person Search Sequentially Trained on Aggregated Dataset [1.9766522384767227]
本稿では,検出と特徴抽出を共同で計算するエンド・ツー・エンドのモデルを提案する。コストのかかるIDアノテーションを使わずに、より多くの歩行者検出データセットを集約することで、共有機能マップがより汎用的であることを示す。
論文参考訳（メタデータ） (2022-01-24T11:22:15Z)
Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文参考訳（メタデータ） (2020-07-10T10:28:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。