論文の概要: Semantic Item Graph Enhancement for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2508.06154v1
- Date: Fri, 08 Aug 2025 09:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.172693
- Title: Semantic Item Graph Enhancement for Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションのためのセマンティック項目グラフの強化
- Authors: Xiaoxiong Zhang, Xin Zhou, Zhiwei Zeng, Dusit Niyato, Zhiqi Shen,
- Abstract要約: マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。
先行する手法は、しばしばモダリティ固有のアイテム・イテム意味グラフを生のモダリティの特徴から構築する。
これらのセマンティックグラフは、アイテム間の協調信号のモデリングが不十分ななど、セマンティックな欠陥に悩まされている。
- 参考スコア(独自算出の注目度): 49.66272783945571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation systems have attracted increasing attention for their improved performance by leveraging items' multimodal information. Prior methods often build modality-specific item-item semantic graphs from raw modality features and use them as supplementary structures alongside the user-item interaction graph to enhance user preference learning. However, these semantic graphs suffer from semantic deficiencies, including (1) insufficient modeling of collaborative signals among items and (2) structural distortions introduced by noise in raw modality features, ultimately compromising performance. To address these issues, we first extract collaborative signals from the interaction graph and infuse them into each modality-specific item semantic graph to enhance semantic modeling. Then, we design a modulus-based personalized embedding perturbation mechanism that injects perturbations with modulus-guided personalized intensity into embeddings to generate contrastive views. This enables the model to learn noise-robust representations through contrastive learning, thereby reducing the effect of structural noise in semantic graphs. Besides, we propose a dual representation alignment mechanism that first aligns multiple semantic representations via a designed Anchor-based InfoNCE loss using behavior representations as anchors, and then aligns behavior representations with the fused semantics by standard InfoNCE, to ensure representation consistency. Extensive experiments on four benchmark datasets validate the effectiveness of our framework.
- Abstract(参考訳): マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。
従来の手法では、モダリティ固有のアイテム-イム意味グラフを生のモダリティ特徴から構築し、ユーザ-イデム相互作用グラフと並行して補助構造として使用することにより、ユーザの好み学習を強化することが多かった。
しかし,これらの意味グラフは,(1) 項目間の協調的な信号のモデリングが不十分なこと,(2) ノイズによって生じる構造的歪みなど,意味的欠陥に悩まされ,最終的に性能が損なわれる。
これらの問題に対処するために、まず相互作用グラフから協調的な信号を抽出し、各モータリティ固有の項目意味グラフに注入し、セマンティックモデリングを強化する。
そこで,本研究では, 対向的なビューを生成するために, 対向方向のパーソナライズされたパーソナライズされた強度で摂動を注入する, 弾性率に基づくパーソナライズドな埋め込み摂動機構を設計する。
これにより、モデルがコントラスト学習を通じてノイズ・ロバスト表現を学習し、セマンティックグラフにおける構造ノイズの影響を低減することができる。
さらに,動作表現をアンカーとして使用し,複数の意味表現をアンカーとして設計したAnchorベースのInfoNCEロスにアライメントし,次に標準InfoNCEによる融合セマンティクスと動作表現をアライメントし,表現整合性を確保する2つの表現アライメント機構を提案する。
4つのベンチマークデータセットに対する大規模な実験により、我々のフレームワークの有効性が検証された。
関連論文リスト
- Dual-Perspective Disentangled Multi-Intent Alignment for Enhanced Collaborative Filtering [7.031525324133112]
暗黙のフィードバックからユーザ意図を遠ざけることは、レコメンデーションシステムの正確性と解釈可能性を高めるための有望な戦略として現れてきた。
DMICFは、意図のアライメント、構造融合、識別訓練を統一する、二重パースペクティブな協調フィルタリングフレームワークである。
DMICFは、さまざまなインタラクション分布を持つデータセット間で、一貫して堅牢なパフォーマンスを提供します。
論文 参考訳(メタデータ) (2025-06-13T07:44:42Z) - Leveraging Foundation Models for Multimodal Graph-Based Action Recognition [1.533133219129073]
動的視覚符号化のためのビデオMAEとコンテキストテキスト埋め込みのためのBERTを統合したグラフベースのフレームワークを提案する。
提案手法は,多様なベンチマークデータセット上で,最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-21T07:15:14Z) - BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation [15.818669767036592]
本稿では,2列列の量子化とセマンティックス・アウェア・シーケンス・モデリングを備えたBBQRec(Behavior-Bind Multi-modal Quantization for Sequential Recommendation)を提案する。
BBQRecは、コントラストのあるコードブック学習を通じて、ノイズの多いモダリティ特有の特徴からモダリティに依存しない行動パターンを分離する。
我々は、量子化された意味関係を用いて自己注意スコアを動的に調整する離散化類似度再重み付け機構を設計する。
論文 参考訳(メタデータ) (2025-04-09T07:19:48Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Graph with Sequence: Broad-Range Semantic Modeling for Fake News Detection [18.993270952535465]
BREAKは偽ニュース検出のための広範囲セマンティクスモデルである。
完全に接続されたグラフを利用して、包括的なセマンティクスをキャプチャする。
構造ノイズと特徴ノイズの両方を最小限に抑えるために、デュアルデノゲーションモジュールを使用している。
論文 参考訳(メタデータ) (2024-12-07T14:35:46Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - DyTed: Disentangled Representation Learning for Discrete-time Dynamic
Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。
本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文 参考訳(メタデータ) (2022-10-19T14:34:12Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Graph Contrastive Learning with Adaptive Augmentation [23.37786673825192]
本稿では,適応的拡張を用いた新しいグラフコントラスト表現学習法を提案する。
具体的には,ノードの集中度に基づく拡張スキームを設計し,重要な結合構造を明らかにする。
提案手法は,既存の最先端のベースラインを一貫して上回り,教師付きベースラインを超えている。
論文 参考訳(メタデータ) (2020-10-27T15:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。