論文の概要: M^2VAE: Multi-Modal Multi-View Variational Autoencoder for Cold-start Item Recommendation
- arxiv url: http://arxiv.org/abs/2508.00452v1
- Date: Fri, 01 Aug 2025 09:16:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.812645
- Title: M^2VAE: Multi-Modal Multi-View Variational Autoencoder for Cold-start Item Recommendation
- Title(参考訳): M^2VAE:冷間開始項目推薦のためのマルチモードマルチビュー変分オートエンコーダ
- Authors: Chuan He, Yongchao Liu, Qiang Li, Wenliang Zhong, Chuntao Hong, Xinwei Yao,
- Abstract要約: コールドスタートアイテムレコメンデーションはレコメンデーションシステムにおいて重要な課題である。
既存の方法は、コールドスタート問題を緩和するためにマルチモーダルコンテンツを利用する。
本稿では,属性とマルチモーダルの特徴の共通性とユニークなビューをモデル化する上での課題に対処する生成モデルを提案する。
- 参考スコア(独自算出の注目度): 14.644213412218742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cold-start item recommendation is a significant challenge in recommendation systems, particularly when new items are introduced without any historical interaction data. While existing methods leverage multi-modal content to alleviate the cold-start issue, they often neglect the inherent multi-view structure of modalities, the distinction between shared and modality-specific features. In this paper, we propose Multi-Modal Multi-View Variational AutoEncoder (M^2VAE), a generative model that addresses the challenges of modeling common and unique views in attribute and multi-modal features, as well as user preferences over single-typed item features. Specifically, we generate type-specific latent variables for item IDs, categorical attributes, and image features, and use Product-of-Experts (PoE) to derive a common representation. A disentangled contrastive loss decouples the common view from unique views while preserving feature informativeness. To model user inclinations, we employ a preference-guided Mixture-of-Experts (MoE) to adaptively fuse representations. We further incorporate co-occurrence signals via contrastive learning, eliminating the need for pretraining. Extensive experiments on real-world datasets validate the effectiveness of our approach.
- Abstract(参考訳): コールドスタートアイテムレコメンデーションはレコメンデーションシステムにおいて重要な課題である。
既存の手法では、マルチモーダルコンテンツを利用してコールドスタート問題を緩和するが、それらはしばしば、モダリティの固有のマルチビュー構造、共有とモダリティ固有の特徴の区別を無視する。
本稿では,マルチモーダルなマルチビュー変動自動エンコーダ (M^2VAE) を提案する。
具体的には、アイテムID、カテゴリ属性、画像特徴の型固有の潜在変数を生成し、Product-of-Experts(PoE)を使用して共通の表現を導出する。
歪んだコントラスト損失は、特徴情報性を保持しながら、共通のビューをユニークなビューから切り離す。
ユーザの傾きをモデル化するために、好み誘導型Mixture-of-Experts (MoE) を用いて、表現を適応的にフューズする。
さらに、コントラスト学習による共起信号を取り入れ、事前学習の必要性を排除した。
実世界のデータセットに関する大規模な実験は、我々のアプローチの有効性を検証する。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - DeMo: Decoupled Feature-Based Mixture of Experts for Multi-Modal Object Re-Identification [25.781336502845395]
マルチモーダルオブジェクトReIDentificationは、複数のモーダルから補完情報を組み合わせることで、特定のオブジェクトを検索することを目的としている。
本稿では,マルチモーダルオブジェクトReIDのためのDeMoと呼ばれる新しい特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-14T02:36:56Z) - Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。
本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。
5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-12-11T05:08:19Z) - Facet-Aware Multi-Head Mixture-of-Experts Model for Sequential Recommendation [25.516648802281626]
逐次レコメンデーションのためのFAME(Facet-Aware Multi-Head Mixture-of-Experts Model for Sequential Recommendation)という新しい構造を提案する。
最後のマルチヘッドアテンション層における各頭部からのサブ埋め込みを活用して,次の項目を別々に予測する。
ゲーティングメカニズムは、各ヘッドからのレコメンデーションを統合し、それらの重要性を動的に決定する。
論文 参考訳(メタデータ) (2024-11-03T06:47:45Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation [9.720586396359906]
既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。
本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。
UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-29T11:04:31Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。