論文の概要: CLEAR: Null-Space Projection for Cross-Modal De-Redundancy in Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2603.01536v1
- Date: Mon, 02 Mar 2026 07:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.728221
- Title: CLEAR: Null-Space Projection for Cross-Modal De-Redundancy in Multimodal Recommendation
- Title(参考訳): CLEAR:マルチモーダルレコメンデーションにおけるクロスモーダルデ冗長のためのNull空間投影
- Authors: Hao Zhan, Yihui Wang, Yonghui Yang, Danyang Yue, Yu Wang, Pengyang Shao, Fei Shen, Fei Liu, Le Wu,
- Abstract要約: マルチモーダルレコメンデーションは、異種コンテンツモダリティを取り入れた協調フィルタリングの効果的なパラダイムとして登場した。
マルチモーダルレコメンデーションのためのクロスモーダルデ冗長手法であるCLEARを提案する。
CLEARは、モダリティ固有の情報を保持しながら冗長なクロスモーダル成分を抑えることで、表現空間を再設定する。
- 参考スコア(独自算出の注目度): 22.71702128773632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal recommendation has emerged as an effective paradigm for enhancing collaborative filtering by incorporating heterogeneous content modalities. Existing multimodal recommenders predominantly focus on reinforcing cross-modal consistency to facilitate multimodal fusion. However, we observe that multimodal representations often exhibit substantial cross-modal redundancy, where dominant shared components overlap across modalities. Such redundancy can limit the effective utilization of complementary information, explaining why incorporating additional modalities does not always yield performance improvements. In this work, we propose CLEAR, a lightweight and plug-and-play cross-modal de-redundancy approach for multimodal recommendation. Rather than enforcing stronger cross-modal alignment, CLEAR explicitly characterizes the redundant shared subspace across modalities by modeling cross-modal covariance between visual and textual representations. By identifying dominant shared directions via singular value decomposition and projecting multimodal features onto the complementary null space, CLEAR reshapes the multimodal representation space by suppressing redundant cross-modal components while preserving modality-specific information. This subspace-level projection implicitly regulates representation learning dynamics, preventing the model from repeatedly amplifying redundant shared semantics during training. Notably, CLEAR can be seamlessly integrated into existing multimodal recommenders without modifying their architectures or training objectives. Extensive experiments on three public benchmark datasets demonstrate that explicitly reducing cross-modal redundancy consistently improves recommendation performance across a wide range of multimodal recommendation models.
- Abstract(参考訳): マルチモーダルレコメンデーションは、異種コンテンツモダリティを取り入れた協調フィルタリングの効果的なパラダイムとして登場した。
既存のマルチモーダルリコメンデータは主に、マルチモーダル融合を促進するために、クロスモーダル一貫性の強化に重点を置いている。
しかし、マルチモーダル表現は、主要な共有成分がモダリティにまたがって重なり合うような、かなりの相互冗長性を示すことが多い。
このような冗長性は相補的な情報の有効利用を制限することができ、なぜ追加のモダリティを組み込むことで必ずしも性能が向上しないのかを説明する。
本研究では,マルチモーダルレコメンデーションのための軽量かつプラグアンドプレイ型クロスモーダルデ冗長手法であるCLEARを提案する。
CLEARは、より強力なクロスモーダルアライメントを強制するのではなく、視覚的およびテキスト的表現間のクロスモーダル共分散をモデル化することによって、モダリティ間の冗長な共有部分空間を明示的に特徴付ける。
特異値分解による支配的共有方向の同定と相補的なヌル空間への多重モーダル特徴の投影により、CLEARは、モダリティ固有の情報を保持しながら、冗長なクロスモーダル成分を抑えることで、多重モーダル表現空間を再考する。
このサブスペースレベルのプロジェクションは、暗黙的に表現学習のダイナミクスを規制し、トレーニング中に冗長な共有セマンティクスを繰り返し増幅することを防ぐ。
特に、CLEARはアーキテクチャを変更したり、目標をトレーニングすることなく、既存のマルチモーダルレコメンデータにシームレスに統合できる。
3つの公開ベンチマークデータセットに対する大規模な実験により、クロスモーダル冗長性を明示的に低減することで、広範囲のマルチモーダルレコメンデーションモデルにおけるレコメンデーションパフォーマンスが一貫して向上することが示された。
関連論文リスト
- Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations [4.67724003380452]
マルチモーダル学習は異種情報源からの情報を統合することを目的としており、そこでは信号はモダリティ間で共有され、個々のモダリティに特有であり、相互作用を通してのみ現れる。
自己教師型マルチモーダルコントラスト学習は目覚ましい進歩を遂げてきたが、既存の手法のほとんどは冗長なクロスモーダル信号を捉え、しばしばモダリティ固有の(一意的な)情報や相互作用駆動の(シネルジスティックな)情報を無視している。
最近の拡張は、この視点を広げるが、それらは相乗的相互作用を明示的にモデル化したり、異なる情報コンポーネントを絡み合った方法で学習することに失敗し、不完全な表現と潜在的な情報漏洩につながる。
基本的枠組みである textbfCOrAL を導入する。
論文 参考訳(メタデータ) (2026-02-16T18:06:53Z) - When Gradient Optimization Is Not Enough: $\dagger$ Dispersive and Anchoring Geometric Regularizer for Multimodal Learning [7.598111859541752]
我々は,表現幾何学をマルチモーダル学習において欠落する制御軸として認識し,軽量な幾何認識正規化フレームワークであるregNameを提案する。
regNameは、表現の多様性を促進するモード内分散正規化と、厳密なアライメントなしでサンプルレベルのクロスモーダルドリフトを束縛するモード間アンカー正規化の2つの補完的制約を施行する。
複数のマルチモーダルベンチマークによる実験では、マルチモーダルとユニモーダルの両方のパフォーマンスが一貫した改善を示し、表現幾何学の明示的な制御がモダリティトレードオフを効果的に緩和することを示した。
論文 参考訳(メタデータ) (2026-01-29T13:03:50Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation [36.338586087343806]
我々はMRdIB(Multimodal Representation-disentangled Information Bottleneck)という新しいフレームワークを提案する。
具体的には,まず,入力表現を圧縮するためにマルチモーダル・インフォメーション・ボトルネックを用いる。
そして,レコメンデーションターゲットとの関係に基づいて,情報をユニークで冗長な,シナジスティックなコンポーネントに分解する。
論文 参考訳(メタデータ) (2025-09-24T15:18:32Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。