論文の概要: ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2311.05956v2
- Date: Wed, 22 May 2024 10:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:13:50.751895
- Title: ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションのためのコンテンツと構造の部分的特徴としてのID埋め込み
- Authors: Yuting Liu, Enneng Yang, Yizhou Dang, Guibing Guo, Qiang Liu, Yuliang Liang, Linying Jiang, Xingwei Wang,
- Abstract要約: コンテンツと構造の両方の健全な特徴を高めるために,ID埋め込みを取り入れた新しいレコメンデーションモデルを提案する。
提案手法は,最先端のマルチモーダルレコメンデーション手法や細粒度ID埋め込みの有効性に優れる。
- 参考スコア(独自算出の注目度): 13.338363107777438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation aims to model user and item representations comprehensively with the involvement of multimedia content for effective recommendations. Existing research has shown that it is beneficial for recommendation performance to combine (user- and item-) ID embeddings with multimodal salient features, indicating the value of IDs. However, there is a lack of a thorough analysis of the ID embeddings in terms of feature semantics in the literature. In this paper, we revisit the value of ID embeddings for multimodal recommendation and conduct a thorough study regarding its semantics, which we recognize as subtle features of \emph{content} and \emph{structure}. Based on our findings, we propose a novel recommendation model by incorporating ID embeddings to enhance the salient features of both content and structure. Specifically, we put forward a hierarchical attention mechanism to incorporate ID embeddings in modality fusing, coupled with contrastive learning, to enhance content representations. Meanwhile, we propose a lightweight graph convolution network for each modality to amalgamate neighborhood and ID embeddings for improving structural representations. Finally, the content and structure representations are combined to form the ultimate item embedding for recommendation. Extensive experiments on three real-world datasets (Baby, Sports, and Clothing) demonstrate the superiority of our method over state-of-the-art multimodal recommendation methods and the effectiveness of fine-grained ID embeddings. Our code is available at https://anonymous.4open.science/r/IDSF-code/.
- Abstract(参考訳): マルチモーダルレコメンデーションは,マルチメディアコンテンツの関与を包括的にモデル化し,効果的なレコメンデーションを実現することを目的としている。
既存の研究では、(ユーザとアイテムの)ID埋め込みとマルチモーダルな有能な特徴を組み合わせ、IDの価値を示すレコメンデーションパフォーマンスが有益であることが示されている。
しかし、文学における特徴的意味論の観点から、ID埋め込みの徹底的な分析が欠如している。
本稿では,多モーダルなレコメンデーションのためのID埋め込みの価値を再考し,そのセマンティクスに関する徹底的な研究を行い,これを「emph{content}」と「emph{structure}」の微妙な特徴として認識する。
そこで本研究では,ID埋め込みを取り入れた新しいレコメンデーションモデルを提案する。
具体的には、コンテンツ表現を強化するために、モダリティ融合とコントラスト学習を組み合わせたID埋め込みを組み込む階層的な注意機構を提案する。
一方,アマルガメート近傍へのモダリティと構造表現改善のためのID埋め込みのための軽量グラフ畳み込みネットワークを提案する。
最後に、コンテンツと構造表現を組み合わせて、推奨のための究極のアイテム埋め込みを形成する。
実世界の3つのデータセット(Baby, Sports, Clothing)に対する大規模な実験により,最先端のマルチモーダルレコメンデーション手法よりも提案手法が優れていること,さらに詳細なID埋め込みの有効性が示された。
私たちのコードはhttps://anonymous.4open.science/r/IDSF-code/で利用可能です。
関連論文リスト
- Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation [26.737971605928358]
我々はMOTORというIDのないマルチモーダルトークン表現方式を提案する。
まず、各項目のマルチモーダル特徴を離散トークンIDに識別するために、製品量子化を用いる。
次に、これらのトークンIDに対応するトークン埋め込みを暗黙のアイテム機能として解釈する。
結果として得られた表現は、元のID埋め込みを置き換え、元のマルチモーダルレコメンデータをIDフリーシステムに変換することができる。
論文 参考訳(メタデータ) (2024-10-25T03:06:10Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - AlignRec: Aligning and Training in Multimodal Recommendations [29.995007279325947]
マルチモーダル・レコメンデーションは 相互作用を超えて 豊かなコンテキストを活用できる
既存の手法では、主に多モーダル情報を補助的なものとみなし、それを用いてIDの特徴を学習する。
マルチモーダルコンテンツの特徴とIDベースの特徴の間にはセマンティックなギャップがあり、それによってユーザやアイテムの表現の誤調整につながる。
論文 参考訳(メタデータ) (2024-03-19T02:49:32Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。