論文の概要: Hypercomplex Prompt-aware Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2508.10753v1
- Date: Thu, 14 Aug 2025 15:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.386045
- Title: Hypercomplex Prompt-aware Multimodal Recommendation
- Title(参考訳): 超複雑プロンプト対応マルチモーダルレコメンデーション
- Authors: Zheyu Chen, Jinfeng Xu, Hewei Wang, Shuo Yang, Zitong Wan, Haibo Hu,
- Abstract要約: 提案するHPMRecは,ハイパーコンプレックスなマルチモーダルレコメンデーションフレームワークである。
我々は,HPMRecが4つの公開データセットの実験において,最先端のレコメンデーション性能を達成することを示す。
- 参考スコア(独自算出の注目度): 6.862998546677475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern recommender systems face critical challenges in handling information overload while addressing the inherent limitations of multimodal representation learning. Existing methods suffer from three fundamental limitations: (1) restricted ability to represent rich multimodal features through a single representation, (2) existing linear modality fusion strategies ignore the deep nonlinear correlations between modalities, and (3) static optimization methods failing to dynamically mitigate the over-smoothing problem in graph convolutional network (GCN). To overcome these limitations, we propose HPMRec, a novel Hypercomplex Prompt-aware Multimodal Recommendation framework, which utilizes hypercomplex embeddings in the form of multi-components to enhance the representation diversity of multimodal features. HPMRec adopts the hypercomplex multiplication to naturally establish nonlinear cross-modality interactions to bridge semantic gaps, which is beneficial to explore the cross-modality features. HPMRec also introduces the prompt-aware compensation mechanism to aid the misalignment between components and modality-specific features loss, and this mechanism fundamentally alleviates the over-smoothing problem. It further designs self-supervised learning tasks that enhance representation diversity and align different modalities. Extensive experiments on four public datasets show that HPMRec achieves state-of-the-art recommendation performance.
- Abstract(参考訳): 現代のレコメンデータシステムは、マルチモーダル表現学習の固有の制限に対処しながら、情報の過負荷を処理する上で重要な課題に直面している。
既存の手法は,(1) 単一表現によるリッチマルチモーダル特徴の表現能力の制限,(2) 既存の線形モーダル融合戦略は,モダリティ間の深い非線形相関を無視する,(3) グラフ畳み込みネットワーク(GCN)における過度な平滑化問題を動的に緩和できない,という3つの基本的な制限に悩まされている。
これらの制約を克服するため,HPMRec は,マルチコンポーネントの形式によるハイパーコンプレックス埋め込みを利用して,マルチモーダル特徴の表現の多様性を高める新しいマルチモーダルレコメンデーションフレームワークである。
HPMRecは超複素乗法を採用し、自然に非線型なクロスモダリティ相互作用を確立し、セマンティックギャップを橋渡しし、これはクロスモダリティの特徴を探求するのに有益である。
HPMRecはまた、コンポーネント間のミスアライメントとモダリティ固有の特徴損失を支援するために、即時対応の補償機構を導入し、このメカニズムは、過度に平滑な問題を根本的に緩和する。
さらに、表現の多様性を高め、異なるモダリティを整合させる自己指導型学習タスクを設計する。
4つの公開データセットに対する大規模な実験は、HPMRecが最先端のレコメンデーションパフォーマンスを達成することを示している。
関連論文リスト
- Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。