Fugu-MT 論文翻訳(概要): An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders

論文の概要: An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders

arxiv url: http://arxiv.org/abs/2403.17372v5
Date: Mon, 07 Oct 2024 07:33:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:45:59.847504
Title: An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders
Title（参考訳）: ID非依存型マルチモーダルシーケンスレコメンデーションの実証的研究
Authors: Youhua Li, Hanwen Du, Yongxin Ni, Yuanqi He, Junchen Fu, Xiangyan Liu, Qi Guo,
Abstract要約: Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。本稿では,シンプルで普遍的なtextbfMulti-textbfModal textbfSequential textbfRecommendation (textbfMMSR) フレームワークを提案する。
参考スコア（独自算出の注目度）: 3.1093882314734285
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Sequential Recommendation (SR) aims to predict future user-item interactions based on historical interactions. While many SR approaches concentrate on user IDs and item IDs, the human perception of the world through multi-modal signals, like text and images, has inspired researchers to delve into constructing SR from multi-modal information without using IDs. However, the complexity of multi-modal learning manifests in diverse feature extractors, fusion methods, and pre-trained models. Consequently, designing a simple and universal \textbf{M}ulti-\textbf{M}odal \textbf{S}equential \textbf{R}ecommendation (\textbf{MMSR}) framework remains a formidable challenge. We systematically summarize the existing multi-modal related SR methods and distill the essence into four core components: visual encoder, text encoder, multimodal fusion module, and sequential architecture. Along these dimensions, we dissect the model designs, and answer the following sub-questions: First, we explore how to construct MMSR from scratch, ensuring its performance either on par with or exceeds existing SR methods without complex techniques. Second, we examine if MMSR can benefit from existing multi-modal pre-training paradigms. Third, we assess MMSR's capability in tackling common challenges like cold start and domain transferring. Our experiment results across four real-world recommendation scenarios demonstrate the great potential ID-agnostic multi-modal sequential recommendation. Our framework can be found at: https://github.com/MMSR23/MMSR.
Abstract（参考訳）: Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。しかし、マルチモーダル学習の複雑さは、多様な特徴抽出器、融合法、事前訓練されたモデルに現れる。したがって、単純で普遍的な \textbf{M}ulti-\textbf{M}odal \textbf{S}equential \textbf{R}ecommendation (\textbf{MMSR}) フレームワークを設計することは、依然として恐ろしい課題である。既存のマルチモーダル関連SR手法を体系的に要約し,その概念をビジュアルエンコーダ,テキストエンコーダ,マルチモーダル融合モジュール,シーケンシャルアーキテクチャの4つのコアコンポーネントに抽出する。まず、MMSRをスクラッチから構築する方法を検討し、その性能を既存のSR手法と同等かそれ以上に保証する。第二に、MMSRが既存のマルチモーダル事前学習パラダイムの恩恵を受けることができるかどうかを検討する。第3に、コールドスタートやドメイン転送といった一般的な課題に対処するMMSRの能力を評価する。実世界の4つのレコメンデーションシナリオにまたがる実験結果から,ID非依存型マルチモーダルシーケンシャルレコメンデーションの可能性を示す。私たちのフレームワークは、https://github.com/MMSR23/MMSRで確認できます。

関連論文リスト

IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval [29.05476868272228]
インスタンス駆動型マルチモーダル画像検索(IDMR)は、テキスト記述シナリオにマッチしながら、クエリイメージと同じインスタンスを含む画像を取得するモデルを必要とする、新しいタスクである。この能力をベンチマークするために,実世界の物体追跡と一対一のビデオデータを用いたIDMRベンチを開発した。我々のMultimodal Large Language Model(MLLM)に基づく検索モデルは、1.2Mサンプルに基づいて訓練され、従来のベンチマークとゼロショットIDMRベンチの両方で最先端のアプローチより優れている。
論文参考訳（メタデータ） (2025-04-01T16:47:20Z)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation [19.745059794932807]
本稿では,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを紹介する。我々は,コーパス内のマルチモーダルデータを完全に活用して,テキストと画像を組み合わせたマルチモーダルな回答を生成することを目指している。厳密な評価を容易にするため、MRAMG-Benchは統計およびLLMベースのメトリクスの総合的なスイートを組み込んでいる。
論文参考訳（メタデータ） (2025-02-06T16:07:24Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
DimeRec: A Unified Framework for Enhanced Sequential Recommendation via Generative Diffusion Models [39.49215596285211]
シークエンシャルレコメンデーション(SR:Sequential Recommendation)は、非定常的な歴史的相互作用に基づいてユーザの好みに合わせてレコメンデーションを調整することによって、レコメンデーションシステムにおいて重要な役割を担っている。誘導抽出モジュール(GEM)と生成拡散凝集モジュール(DAM)を組み合わせたDimeRecという新しいフレームワークを提案する。我々の数値実験により、DimeRecは3つの公開データセットで確立されたベースライン法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-08-22T06:42:09Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文参考訳（メタデータ） (2023-08-22T04:06:56Z)
Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文参考訳（メタデータ） (2023-02-08T05:12:54Z)
End-to-End Automatic Speech Recognition with Deep Mutual Learning [29.925641799136663]
この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。 DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
論文参考訳（メタデータ） (2021-02-16T13:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。