論文の概要: An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders
- arxiv url: http://arxiv.org/abs/2403.17372v5
- Date: Mon, 07 Oct 2024 07:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:01:44.837211
- Title: An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders
- Title(参考訳): ID非依存型マルチモーダルシーケンスレコメンデーションの実証的研究
- Authors: Youhua Li, Hanwen Du, Yongxin Ni, Yuanqi He, Junchen Fu, Xiangyan Liu, Qi Guo,
- Abstract要約: Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。
多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。
本稿では,シンプルで普遍的なtextbfMulti-textbfModal textbfSequential textbfRecommendation (textbfMMSR) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.1093882314734285
- License:
- Abstract: Sequential Recommendation (SR) aims to predict future user-item interactions based on historical interactions. While many SR approaches concentrate on user IDs and item IDs, the human perception of the world through multi-modal signals, like text and images, has inspired researchers to delve into constructing SR from multi-modal information without using IDs. However, the complexity of multi-modal learning manifests in diverse feature extractors, fusion methods, and pre-trained models. Consequently, designing a simple and universal \textbf{M}ulti-\textbf{M}odal \textbf{S}equential \textbf{R}ecommendation (\textbf{MMSR}) framework remains a formidable challenge. We systematically summarize the existing multi-modal related SR methods and distill the essence into four core components: visual encoder, text encoder, multimodal fusion module, and sequential architecture. Along these dimensions, we dissect the model designs, and answer the following sub-questions: First, we explore how to construct MMSR from scratch, ensuring its performance either on par with or exceeds existing SR methods without complex techniques. Second, we examine if MMSR can benefit from existing multi-modal pre-training paradigms. Third, we assess MMSR's capability in tackling common challenges like cold start and domain transferring. Our experiment results across four real-world recommendation scenarios demonstrate the great potential ID-agnostic multi-modal sequential recommendation. Our framework can be found at: https://github.com/MMSR23/MMSR.
- Abstract(参考訳): Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。
多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。
しかし、マルチモーダル学習の複雑さは、多様な特徴抽出器、融合法、事前訓練されたモデルに現れる。
したがって、単純で普遍的な \textbf{M}ulti-\textbf{M}odal \textbf{S}equential \textbf{R}ecommendation (\textbf{MMSR}) フレームワークを設計することは、依然として恐ろしい課題である。
既存のマルチモーダル関連SR手法を体系的に要約し,その概念をビジュアルエンコーダ,テキストエンコーダ,マルチモーダル融合モジュール,シーケンシャルアーキテクチャの4つのコアコンポーネントに抽出する。
まず、MMSRをスクラッチから構築する方法を検討し、その性能を既存のSR手法と同等かそれ以上に保証する。
第二に、MMSRが既存のマルチモーダル事前学習パラダイムの恩恵を受けることができるかどうかを検討する。
第3に、コールドスタートやドメイン転送といった一般的な課題に対処するMMSRの能力を評価する。
実世界の4つのレコメンデーションシナリオにまたがる実験結果から,ID非依存型マルチモーダルシーケンシャルレコメンデーションの可能性を示す。
私たちのフレームワークは、https://github.com/MMSR23/MMSRで確認できます。
関連論文リスト
- MRAMG-Bench: A BeyondText Benchmark for Multimodal Retrieval-Augmented Multimodal Generation [19.745059794932807]
本稿では,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを紹介する。
このタスクは、コーパス内のマルチモーダルデータを完全に活用して、テキストと画像の両方を組み合わせた回答を生成することを目的としている。
MRAMG-Benchは,統計およびLLMに基づくメトリクスの包括的スイートである。
論文 参考訳(メタデータ) (2025-02-06T16:07:24Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - DimeRec: A Unified Framework for Enhanced Sequential Recommendation via Generative Diffusion Models [39.49215596285211]
シークエンシャルレコメンデーション(SR:Sequential Recommendation)は、非定常的な歴史的相互作用に基づいてユーザの好みに合わせてレコメンデーションを調整することによって、レコメンデーションシステムにおいて重要な役割を担っている。
誘導抽出モジュール(GEM)と生成拡散凝集モジュール(DAM)を組み合わせたDimeRecという新しいフレームワークを提案する。
我々の数値実験により、DimeRecは3つの公開データセットで確立されたベースライン法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-08-22T06:42:09Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。