論文の概要: Multimodal Fusion And Sparse Attention-based Alignment Model for Long Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2508.09664v1
- Date: Wed, 13 Aug 2025 09:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.845678
- Title: Multimodal Fusion And Sparse Attention-based Alignment Model for Long Sequential Recommendation
- Title(参考訳): 長期的勧告のためのマルチモーダル核融合とスパースアテンションに基づくアライメントモデル
- Authors: Yongrui Fu, Jian Liu, Tao Li, Zonggang Wu, Shouke Qin, Hanmeng Liu,
- Abstract要約: マルチモーダルアイテムシーケンスとマイニング マルチモーダルユーザ興味は、コンテンツ理解とレコメンデーションのギャップを埋めることができます。
本稿では,ムルティモダル核融合とスパースアテンションに基づくアライメントモデルであるMUFASAを提案する。
実世界のベンチマーク実験では、MUFASAが最先端のベースラインを一貫して超越していることが示されている。
- 参考スコア(独自算出の注目度): 9.086257183699418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal recommendation enable richer item understanding, while modeling users' multi-scale interests across temporal horizons has attracted growing attention. However, effectively exploiting multimodal item sequences and mining multi-grained user interests to substantially bridge the gap between content comprehension and recommendation remain challenging. To address these issues, we propose MUFASA, a MUltimodal Fusion And Sparse Attention-based Alignment model for long sequential recommendation. Our model comprises two core components. First, the Multimodal Fusion Layer (MFL) leverages item titles as a cross-genre semantic anchor and is trained with a joint objective of four tailored losses that promote: (i) cross-genre semantic alignment, (ii) alignment to the collaborative space for recommendation, (iii) preserving the similarity structure defined by titles and preventing modality representation collapse, and (iv) distributional regularization of the fusion space. This yields high-quality fused item representations for further preference alignment. Second, the Sparse Attention-guided Alignment Layer (SAL) scales to long user-behavior sequences via a multi-granularity sparse attention mechanism, which incorporates windowed attention, block-level attention, and selective attention, to capture user interests hierarchically and across temporal horizons. SAL explicitly models both the evolution of coherent interest blocks and fine-grained intra-block variations, producing robust user and item representations. Extensive experiments on real-world benchmarks show that MUFASA consistently surpasses state-of-the-art baselines. Moreover, online A/B tests demonstrate significant gains in production, confirming MUFASA's effectiveness in leveraging multimodal cues and accurately capturing diverse user preferences.
- Abstract(参考訳): 近年のマルチモーダル・レコメンデーションの進歩によりアイテム理解の充実が図られ,時間的地平線を越えたユーザによるマルチスケール関心のモデリングが注目されている。
しかし、コンテンツ理解とレコメンデーションのギャップを著しく埋めるために、効果的にマルチモーダルアイテムシーケンスとマルチモーダルユーザ興味をマイニングすることはまだ困難である。
これらの問題に対処するため,MUFASA(MUltimodal Fusion and Sparse Attention-based Alignment model)を提案する。
私たちのモデルは2つのコアコンポーネントから構成されます。
第一に、MFL(Multimodal Fusion Layer)は、アイテムタイトルをクロスジェネティックアンカーとして活用し、以下の4つの損失を補う共同目標で訓練する。
(i)クロスジェネリックなセマンティックアライメント
(二 推薦のための協力空間に適合すること。)
三 題名で定める類似性構造を保ち、モダリティ表現の崩壊を防止すること。
(iv)核融合空間の分布正則化。
これにより、より優先的なアライメントのための高品質な融合アイテム表現が得られる。
次に、SAL(Sparse Attention-guided Alignment Layer)は、ウィンドウ化された注意、ブロックレベルの注意、選択的な注意を組み込んだ、複数粒度のスパースアテンション機構を通じて、長期のユーザビヘイビアシーケンスにスケールして、階層的および時間的地平線を越えたユーザ関心をキャプチャする。
SALは、コヒーレントな関心ブロックの進化ときめ細かなブロック内変動の両方を明示的にモデル化し、堅牢なユーザおよびアイテム表現を生成する。
実世界のベンチマークに関する大規模な実験は、MUFASAが最先端のベースラインを一貫して超越していることを示している。
さらに、オンラインA/Bテストでは、MUFASAがマルチモーダルなキューを活用し、多様なユーザの好みを正確に把握する効果が確認された。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation [19.654959889052638]
クロスドメインシークエンシャルレコメンデーション(CDSR)は、複数のドメインにわたる歴史的なインタラクションを活用することで、ユーザの振る舞いを予測する。
我々は,LLM-EMF(クロスドメインシーケンスレコメンデーション)のためのLLM強化多モード核融合を提案する。
LLM-EMFは、LLM(Large Language Models)の知識でテキスト情報を強化する新しい高度なアプローチである。
論文 参考訳(メタデータ) (2025-06-22T09:53:21Z) - Hierarchical Time-Aware Mixture of Experts for Multi-Modal Sequential Recommendation [19.47124940518026]
マルチモーダルシーケンスレコメンデーション(HM4SR)の専門家の階層的時間認識混合を提案する。
まず、Interactive MoEと名づけられたMoEは、各項目のマルチモーダルデータから本質的なユーザ関心関連情報を抽出する。
テンポラルモエと呼ばれる第2のMoEは、モダリティ符号化においてタイムスタンプから明示的な時間的埋め込みを導入することで、ユーザの動的関心を捉える。
論文 参考訳(メタデータ) (2025-01-24T06:26:50Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - BiVRec: Bidirectional View-based Multimodal Sequential Recommendation [55.87443627659778]
我々は,IDとマルチモーダルの両方で推薦タスクを共同で訓練する,革新的なフレームワークであるBivRecを提案する。
BivRecは5つのデータセットで最先端のパフォーマンスを達成し、様々な実用的な利点を示している。
論文 参考訳(メタデータ) (2024-02-27T09:10:41Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multiple Interest and Fine Granularity Network for User Modeling [3.508126539399186]
ユーザモデリングは、カスタマエクスペリエンスとビジネス収益の両方の観点から、マッチングステージとランキングステージの両方において、産業レコメンデータシステムにおいて、基本的な役割を果たす。
既存のディープラーニングベースのアプローチのほとんどは、アイテムIDとカテゴリIDを活用するが、色やメイトリアルのようなきめ細かい特徴は無視し、ユーザの興味の細かい粒度をモデル化するのを妨げる。
本稿では,ユーザの多目的・細粒度に対処する多目的・細粒度ネットワーク(MFN)を提案し,ユーザの多目的間の類似性関係と組み合わせ関係からモデルを構築した。
論文 参考訳(メタデータ) (2021-12-05T15:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。