論文の概要: Structurally Refined Graph Transformer for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2511.00584v1
- Date: Sat, 01 Nov 2025 15:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.853649
- Title: Structurally Refined Graph Transformer for Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションのための構造精製グラフ変換器
- Authors: Ke Shi, Yan Zhang, Miao Zhang, Lifan Chen, Jiali Yi, Kui Xiao, Xiaoju Hou, Zhifei Li,
- Abstract要約: 構造的に最適化されたマルチモーダルレコメンデーションモデルSRGFormerを提案する。
モデルへのより良い統合のためにトランスフォーマーを変更することで、ユーザの全体的な行動パターンをキャプチャします。
そして,マルチモーダル情報をハイパーグラフ構造に埋め込み,ユーザとアイテム間の局所構造を学習する。
- 参考スコア(独自算出の注目度): 13.296555757708298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation systems utilize various types of information, including images and text, to enhance the effectiveness of recommendations. The key challenge is predicting user purchasing behavior from the available data. Current recommendation models prioritize extracting multimodal information while neglecting the distinction between redundant and valuable data. They also rely heavily on a single semantic framework (e.g., local or global semantics), resulting in an incomplete or biased representation of user preferences, particularly those less expressed in prior interactions. Furthermore, these approaches fail to capture the complex interactions between users and items, limiting the model's ability to meet diverse users. To address these challenges, we present SRGFormer, a structurally optimized multimodal recommendation model. By modifying the transformer for better integration into our model, we capture the overall behavior patterns of users. Then, we enhance structural information by embedding multimodal information into a hypergraph structure to aid in learning the local structures between users and items. Meanwhile, applying self-supervised tasks to user-item collaborative signals enhances the integration of multimodal information, thereby revealing the representational features inherent to the data's modality. Extensive experiments on three public datasets reveal that SRGFormer surpasses previous benchmark models, achieving an average performance improvement of 4.47 percent on the Sports dataset. The code is publicly available online.
- Abstract(参考訳): マルチモーダルレコメンデーションシステムは、画像やテキストなど様々な種類の情報を活用し、レコメンデーションの有効性を高める。
重要な課題は、利用可能なデータからユーザの購入行動を予測することだ。
現在のレコメンデーションモデルは、冗長データと価値データとの区別を無視しつつ、マルチモーダル情報の抽出を優先している。
また、単一のセマンティックフレームワーク(例えば、ローカルまたはグローバルなセマンティクス)に大きく依存しており、結果としてユーザの好み、特に以前のインタラクションで表現されていないものの不完全あるいは偏りの表現をもたらす。
さらに、これらのアプローチはユーザーとアイテム間の複雑な相互作用を捉えることができず、モデルが多様なユーザーに対応する能力を制限する。
これらの課題に対処するため、構造的に最適化されたマルチモーダルレコメンデーションモデルSRGFormerを提案する。
モデルへのより良い統合のためにトランスフォーマーを変更することで、ユーザの全体的な行動パターンをキャプチャします。
そして,マルチモーダル情報をハイパーグラフ構造に埋め込み,ユーザとアイテム間の局所構造を学習する。
一方、ユーザとイテムの協調信号に自己監督タスクを適用することで、マルチモーダル情報の統合が促進され、データのモダリティに固有の表現的特徴が明らかにされる。
3つの公開データセットに対する大規模な実験により、SRGFormerは以前のベンチマークモデルを上回る結果となり、Sportsデータセットの平均パフォーマンスは4.47%向上した。
コードはオンラインで公開されている。
関連論文リスト
- Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation [36.338586087343806]
我々はMRdIB(Multimodal Representation-disentangled Information Bottleneck)という新しいフレームワークを提案する。
具体的には,まず,入力表現を圧縮するためにマルチモーダル・インフォメーション・ボトルネックを用いる。
そして,レコメンデーションターゲットとの関係に基づいて,情報をユニークで冗長な,シナジスティックなコンポーネントに分解する。
論文 参考訳(メタデータ) (2025-09-24T15:18:32Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Multifaceted User Modeling in Recommendation: A Federated Foundation Models Approach [28.721903315405353]
多面的ユーザモデリングは、きめ細かいパターンを発見し、ユーザデータから表現を学習することを目的としている。
基礎モデルに基づくリコメンデーションに関する最近の研究は、トランスフォーマーアーキテクチャが複雑で非線形なユーザとイテムのインタラクション関係をキャプチャする顕著な能力を強調している。
本稿では,ユーザ・イテムの対話パターンを逐次的にキャプチャする自己認識機構を用いて,レコメンデーションに特化して設計されたトランスフォーマー層を提案する。
論文 参考訳(メタデータ) (2024-12-22T11:00:00Z) - Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。
本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。
5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-12-11T05:08:19Z) - Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [13.878297630442674]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。
提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。
大規模な実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T04:44:15Z) - A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation [9.720586396359906]
既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。
本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。
UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-29T11:04:31Z) - BiVRec: Bidirectional View-based Multimodal Sequential Recommendation [55.87443627659778]
我々は,IDとマルチモーダルの両方で推薦タスクを共同で訓練する,革新的なフレームワークであるBivRecを提案する。
BivRecは5つのデータセットで最先端のパフォーマンスを達成し、様々な実用的な利点を示している。
論文 参考訳(メタデータ) (2024-02-27T09:10:41Z) - Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential
Recommendations [50.03560306423678]
本稿では,レコメンダシステムのための適応型マルチラウンド検索パラダイムであるAda-Retrievalを提案する。
Ada-Retrievalは、ユーザー表現を反復的に洗練し、全項目領域の潜在的な候補をよりよく捉えます。
論文 参考訳(メタデータ) (2024-01-12T15:26:40Z) - Knowledge-Enhanced Hierarchical Graph Transformer Network for
Multi-Behavior Recommendation [56.12499090935242]
本研究では,ユーザとレコメンデータシステムにおける項目間の多種類の対話パターンを探索する知識強化階層型グラフトランスフォーマネットワーク(KHGT)を提案する。
KHGTはグラフ構造化ニューラルネットワーク上に構築され、タイプ固有の振る舞い特性をキャプチャする。
KHGTは、様々な評価設定において、最先端のレコメンデーション手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T09:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。