論文の概要: An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders
- arxiv url: http://arxiv.org/abs/2403.17372v5
- Date: Mon, 07 Oct 2024 07:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:01:44.837211
- Title: An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders
- Title(参考訳): ID非依存型マルチモーダルシーケンスレコメンデーションの実証的研究
- Authors: Youhua Li, Hanwen Du, Yongxin Ni, Yuanqi He, Junchen Fu, Xiangyan Liu, Qi Guo,
- Abstract要約: Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。
多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。
本稿では,シンプルで普遍的なtextbfMulti-textbfModal textbfSequential textbfRecommendation (textbfMMSR) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.1093882314734285
- License:
- Abstract: Sequential Recommendation (SR) aims to predict future user-item interactions based on historical interactions. While many SR approaches concentrate on user IDs and item IDs, the human perception of the world through multi-modal signals, like text and images, has inspired researchers to delve into constructing SR from multi-modal information without using IDs. However, the complexity of multi-modal learning manifests in diverse feature extractors, fusion methods, and pre-trained models. Consequently, designing a simple and universal \textbf{M}ulti-\textbf{M}odal \textbf{S}equential \textbf{R}ecommendation (\textbf{MMSR}) framework remains a formidable challenge. We systematically summarize the existing multi-modal related SR methods and distill the essence into four core components: visual encoder, text encoder, multimodal fusion module, and sequential architecture. Along these dimensions, we dissect the model designs, and answer the following sub-questions: First, we explore how to construct MMSR from scratch, ensuring its performance either on par with or exceeds existing SR methods without complex techniques. Second, we examine if MMSR can benefit from existing multi-modal pre-training paradigms. Third, we assess MMSR's capability in tackling common challenges like cold start and domain transferring. Our experiment results across four real-world recommendation scenarios demonstrate the great potential ID-agnostic multi-modal sequential recommendation. Our framework can be found at: https://github.com/MMSR23/MMSR.
- Abstract(参考訳): Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。
多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。
しかし、マルチモーダル学習の複雑さは、多様な特徴抽出器、融合法、事前訓練されたモデルに現れる。
したがって、単純で普遍的な \textbf{M}ulti-\textbf{M}odal \textbf{S}equential \textbf{R}ecommendation (\textbf{MMSR}) フレームワークを設計することは、依然として恐ろしい課題である。
既存のマルチモーダル関連SR手法を体系的に要約し,その概念をビジュアルエンコーダ,テキストエンコーダ,マルチモーダル融合モジュール,シーケンシャルアーキテクチャの4つのコアコンポーネントに抽出する。
まず、MMSRをスクラッチから構築する方法を検討し、その性能を既存のSR手法と同等かそれ以上に保証する。
第二に、MMSRが既存のマルチモーダル事前学習パラダイムの恩恵を受けることができるかどうかを検討する。
第3に、コールドスタートやドメイン転送といった一般的な課題に対処するMMSRの能力を評価する。
実世界の4つのレコメンデーションシナリオにまたがる実験結果から,ID非依存型マルチモーダルシーケンシャルレコメンデーションの可能性を示す。
私たちのフレームワークは、https://github.com/MMSR23/MMSRで確認できます。
関連論文リスト
- Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - DimeRec: A Unified Framework for Enhanced Sequential Recommendation via Generative Diffusion Models [39.49215596285211]
シークエンシャルレコメンデーション(SR:Sequential Recommendation)は、非定常的な歴史的相互作用に基づいてユーザの好みに合わせてレコメンデーションを調整することによって、レコメンデーションシステムにおいて重要な役割を担っている。
誘導抽出モジュール(GEM)と生成拡散凝集モジュール(DAM)を組み合わせたDimeRecという新しいフレームワークを提案する。
我々の数値実験により、DimeRecは3つの公開データセットで確立されたベースライン法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-08-22T06:42:09Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - End-to-End Automatic Speech Recognition with Deep Mutual Learning [29.925641799136663]
この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。
DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。
従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T13:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。