論文の概要: Multi-modal Relational Item Representation Learning for Inferring Substitutable and Complementary Items
- arxiv url: http://arxiv.org/abs/2507.22268v1
- Date: Tue, 29 Jul 2025 22:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.894472
- Title: Multi-modal Relational Item Representation Learning for Inferring Substitutable and Complementary Items
- Title(参考訳): 代用・補用項目の推測のためのマルチモーダル関連項目表現学習
- Authors: Junting Wang, Chenghuan Guo, Jiao Yang, Yanhui Guo, Yan Gao, Hari Sundaram,
- Abstract要約: 本稿では,代替品や補完品を推論するための,自己教師型マルチモーダル・リレーショナル・アイテム表現学習フレームワークを提案する。
MMSCは,(1)マルチモーダルな基本モデルを活用して項目メタデータから学習するマルチモーダルな項目表現学習モジュール,(2)ユーザ行動データから学習する自己教師型行動ベース表現学習モジュール,(3)セマンティックおよびタスクレベルで項目表現を統合する階層型表現集約機構の3つの主要コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 10.98931494075836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel self-supervised multi-modal relational item representation learning framework designed to infer substitutable and complementary items. Existing approaches primarily focus on modeling item-item associations deduced from user behaviors using graph neural networks (GNNs) or leveraging item content information. However, these methods often overlook critical challenges, such as noisy user behavior data and data sparsity due to the long-tailed distribution of these behaviors. In this paper, we propose MMSC, a self-supervised multi-modal relational item representation learning framework to address these challenges. Specifically, MMSC consists of three main components: (1) a multi-modal item representation learning module that leverages a multi-modal foundational model and learns from item metadata, (2) a self-supervised behavior-based representation learning module that denoises and learns from user behavior data, and (3) a hierarchical representation aggregation mechanism that integrates item representations at both the semantic and task levels. Additionally, we leverage LLMs to generate augmented training data, further enhancing the denoising process during training. We conduct extensive experiments on five real-world datasets, showing that MMSC outperforms existing baselines by 26.1% for substitutable recommendation and 39.2% for complementary recommendation. In addition, we empirically show that MMSC is effective in modeling cold-start items.
- Abstract(参考訳): 代入可能かつ補足的項目を推論するために, 自己教師型多モーダル・リレーショナル・アイテム表現学習フレームワークを提案する。
既存のアプローチは主に、グラフニューラルネットワーク(GNN)やアイテムコンテンツ情報を活用するユーザ行動から導出されるアイテム-イテム関連をモデル化することに焦点を当てている。
しかし、これらの手法は、ノイズの多いユーザ行動データや、こうした行動の長期分布によるデータの分散など、重要な課題をしばしば見落としている。
本稿では,これらの課題に対処する自己教師型マルチモーダル・リレーショナル・アイテム表現学習フレームワークMMSCを提案する。
具体的には,(1)マルチモーダルな項目表現学習モジュール,(2)ユーザ行動データから学習する自己教師型行動ベース表現学習モジュール,(3)セマンティックとタスクの両レベルで項目表現を統合する階層型表現集約機構の3つで構成されている。
さらに,LLMを活用して強化トレーニングデータを生成し,トレーニング中の認知プロセスをさらに強化する。
5つの実世界のデータセットについて広範な実験を行い、MMSCは置換可能な推奨に対して26.1%、補完的な推奨に対して39.2%で既存のベースラインを上回っていることを示した。
さらに, MMSCがコールドスタートアイテムのモデリングに有効であることを実証的に示す。
関連論文リスト
- Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [57.49519639951552]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。
CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文 参考訳(メタデータ) (2024-10-30T17:51:31Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - MultiDelete for Multimodal Machine Unlearning [14.755831733659699]
MultiDeleteは、アンラーニング中の非モーダルデータポイント間の関連を分離するように設計されている。
アンラーニング後のオリジナルのモデルのマルチモーダルとユニモーダルの知識を維持できる。
敵の攻撃に対して、未学習のデータに対するより優れた保護を提供することができる。
論文 参考訳(メタデータ) (2023-11-18T08:30:38Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。