論文の概要: Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2509.09114v1
- Date: Thu, 11 Sep 2025 02:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.209306
- Title: Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションのためのマルチスケールバイラテラルアテンションによるモダリティアライメント
- Authors: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee,
- Abstract要約: MambaRecは、ローカルな特徴アライメントとグローバルな分散正規化を統合する新しいフレームワークである。
DREAMモジュールは階層的関係とコンテキスト認識関連をキャプチャし、モーダル間セマンティックモデリングを改善する。
実世界のeコマースデータセットの実験によると、MambaRecは融合品質、一般化、効率で既存の手法より優れている。
- 参考スコア(独自算出の注目度): 9.91438130100011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation systems are increasingly becoming foundational technologies for e-commerce and content platforms, enabling personalized services by jointly modeling users' historical behaviors and the multimodal features of items (e.g., visual and textual). However, most existing methods rely on either static fusion strategies or graph-based local interaction modeling, facing two critical limitations: (1) insufficient ability to model fine-grained cross-modal associations, leading to suboptimal fusion quality; and (2) a lack of global distribution-level consistency, causing representational bias. To address these, we propose MambaRec, a novel framework that integrates local feature alignment and global distribution regularization via attention-guided learning. At its core, we introduce the Dilated Refinement Attention Module (DREAM), which uses multi-scale dilated convolutions with channel-wise and spatial attention to align fine-grained semantic patterns between visual and textual modalities. This module captures hierarchical relationships and context-aware associations, improving cross-modal semantic modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive loss functions to constrain global modality alignment, enhancing semantic consistency. This dual regularization reduces mode-specific deviations and boosts robustness. To improve scalability, MambaRec employs a dimensionality reduction strategy to lower the computational cost of high-dimensional multimodal features. Extensive experiments on real-world e-commerce datasets show that MambaRec outperforms existing methods in fusion quality, generalization, and efficiency. Our code has been made publicly available at https://github.com/rkl71/MambaRec.
- Abstract(参考訳): マルチモーダルレコメンデーションシステムは電子商取引やコンテンツプラットフォームの基礎技術になりつつあるため、ユーザの履歴行動とアイテムのマルチモーダル特徴(例えば視覚的・テキスト的)を共同でモデル化することでパーソナライズされたサービスを可能にしている。
しかし、既存のほとんどの手法は、静的融合戦略またはグラフベースの局所相互作用モデリングのいずれかに依存しており、(1)細粒度のクロスモーダルな関連をモデル化する能力の不足、(2)大域的な分布レベルの一貫性の欠如、そして表現バイアスを引き起こす2つの限界に直面している。
そこで我々は,局所的な特徴アライメントと,注意誘導学習によるグローバルな分布正規化を統合した新しいフレームワークであるMambaRecを提案する。
その中核となるDREAM(Dilated Refinement Attention Module)は,マルチスケールな拡張畳み込みをチャネル的に,空間的に注意して,視覚とテクスチャの微粒な意味パターンを整合させる。
このモジュールは階層的な関係とコンテキスト認識の関連を捉え、モーダル間セマンティックモデリングを改善する。
さらに,大域的モダリティアライメントを制約し,意味的整合性を高めるために,最大平均離散性(MMD)と対照的な損失関数を適用した。
この二重正則化はモード特異的な偏差を低減し、堅牢性を高める。
スケーラビリティを向上させるため、MambaRecは高次元マルチモーダル特徴の計算コストを下げるために次元削減戦略を採用している。
実世界のeコマースデータセットに関する大規模な実験によると、MambaRecは融合品質、一般化、効率で既存の手法より優れている。
私たちのコードはhttps://github.com/rkl71/MambaRec.comで公開されています。
関連論文リスト
- Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map [1.6570772838074355]
マルチモーダル埋め込みの視覚的探索とアライメントのための対話型システムであるModalChorusを設計する。
1) モーダル・フュージョン・マップ (MFM) を埋め込んだ新しい次元減少法である。
ケーススタディでは、ゼロショット分類からクロスモーダル検索と生成までのシナリオにおいて、ModalChorusが直感的に誤調整と効率的な再調整の発見を容易にすることが示されている。
論文 参考訳(メタデータ) (2024-07-17T04:49:56Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。