論文の概要: STAIR: Manipulating Collaborative and Multimodal Information for E-Commerce Recommendation
- arxiv url: http://arxiv.org/abs/2412.11729v1
- Date: Mon, 16 Dec 2024 12:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:55.859151
- Title: STAIR: Manipulating Collaborative and Multimodal Information for E-Commerce Recommendation
- Title(参考訳): STAIR:eコマースレコメンデーションのためのコラボレーション情報とマルチモーダル情報を操作する
- Authors: Cong Xu, Yunhang He, Jun Wang, Wei Zhang,
- Abstract要約: 本稿では,eコマースレコメンデーションにおける協調的かつマルチモーダルな情報の共存を可能にするために,新しいSTepwise grAph畳み込みを用いたSTAIRを提案する。
STAIRは、計算とメモリのコストを最小限に抑えた3つの公開eコマースデータセットで最先端のレコメンデーションパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 11.650613484855356
- License:
- Abstract: While the mining of modalities is the focus of most multimodal recommendation methods, we believe that how to fully utilize both collaborative and multimodal information is pivotal in e-commerce scenarios where, as clarified in this work, the user behaviors are rarely determined entirely by multimodal features. In order to combine the two distinct types of information, some additional challenges are encountered: 1) Modality erasure: Vanilla graph convolution, which proves rather useful in collaborative filtering, however erases multimodal information; 2) Modality forgetting: Multimodal information tends to be gradually forgotten as the recommendation loss essentially facilitates the learning of collaborative information. To this end, we propose a novel approach named STAIR, which employs a novel STepwise grAph convolution to enable a co-existence of collaborative and multimodal Information in e-commerce Recommendation. Besides, it starts with the raw multimodal features as an initialization, and the forgetting problem can be significantly alleviated through constrained embedding updates. As a result, STAIR achieves state-of-the-art recommendation performance on three public e-commerce datasets with minimal computational and memory costs. Our code is available at https://github.com/yhhe2004/STAIR.
- Abstract(参考訳): モダリティのマイニングは、ほとんどのマルチモーダルレコメンデーション手法の焦点であるが、この研究で明確化されているように、ユーザ行動が完全にマルチモーダルな特徴によって決定されることがほとんどない電子商取引シナリオにおいて、コラボレーティブ情報とマルチモーダル情報の両面をフル活用する方法が重要であると信じている。
2つの異なるタイプの情報を組み合わせるために、いくつかの課題に遭遇する。
1) モダリティ消去: バニラグラフの畳み込みは,協調フィルタリングにおいてかなり有用であるが,マルチモーダル情報を消去する。
2) モダリティを忘れる: マルチモーダル情報は、レコメンデーション損失が本質的に協調情報の学習を容易にするため、徐々に忘れられがちである。
そこで本研究では,新しいStepwise grAph畳み込みを利用して,eコマースレコメンデーションにおける協調的かつマルチモーダルな情報の共存を可能にする,STAIRという新しいアプローチを提案する。
さらに、初期化として生のマルチモーダル機能から始まり、制限された埋め込み更新によって忘れる問題を著しく軽減することができる。
その結果、STAIRは計算とメモリのコストを最小限に抑えた3つのパブリックeコマースデータセットに対して、最先端のレコメンデーションパフォーマンスを実現した。
私たちのコードはhttps://github.com/yhhe2004/STAIR.comで公開されています。
関連論文リスト
- Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。
本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。
5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-12-11T05:08:19Z) - Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。