論文の概要: CM$^3$: Calibrating Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2508.01226v1
- Date: Sat, 02 Aug 2025 06:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 14:23:00.651095
- Title: CM$^3$: Calibrating Multimodal Recommendation
- Title(参考訳): CM$^3$: Calibrating Multimodal Recommendation
- Authors: Xin Zhou, Yongjie Wang, Zhiqi Shen,
- Abstract要約: 本研究では,マルチモーダルレコメンダシステムのコンテキストにおけるアライメントと均一性について再検討する。
同様のマルチモーダル属性を持つ項目が超球面多様体内の近位表現に収束するよりニュアンスなアプローチを提案する。
また、任意の数のモジュラリティを統合するために設計された球面ブエジエ法を導入し、その結果の融合した特徴が同じ超球面多様体に制約されることを保証する。
- 参考スコア(独自算出の注目度): 10.09576389984858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment and uniformity are fundamental principles within the domain of contrastive learning. In recommender systems, prior work has established that optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the objectives of alignment and uniformity. Specifically, alignment aims to draw together the representations of interacting users and items, while uniformity mandates a uniform distribution of user and item embeddings across a unit hypersphere. This study revisits the alignment and uniformity properties within the context of multimodal recommender systems, revealing a proclivity among extant models to prioritize uniformity to the detriment of alignment. Our hypothesis challenges the conventional assumption of equitable item treatment through a uniformity loss, proposing a more nuanced approach wherein items with similar multimodal attributes converge toward proximal representations within the hyperspheric manifold. Specifically, we leverage the inherent similarity between items' multimodal data to calibrate their uniformity distribution, thereby inducing a more pronounced repulsive force between dissimilar entities within the embedding space. A theoretical analysis elucidates the relationship between this calibrated uniformity loss and the conventional uniformity function. Moreover, to enhance the fusion of multimodal features, we introduce a Spherical B\'ezier method designed to integrate an arbitrary number of modalities while ensuring that the resulting fused features are constrained to the same hyperspherical manifold. Empirical evaluations conducted on five real-world datasets substantiate the superiority of our approach over competing baselines. We also shown that the proposed methods can achieve up to a 5.4% increase in NDCG@20 performance via the integration of MLLM-extracted features. Source code is available at: https://github.com/enoche/CM3.
- Abstract(参考訳): アライメントと統一性は、対照的な学習の領域における基本的な原則である。
推薦システムでは、ベイズパーソナライズされたランキング(BPR)の損失を最適化することがアライメントと統一の目的に寄与する、という先行研究が確立されている。
特に、アライメントは、対話するユーザとアイテムの表現をまとめることを目的としており、一様性は、単位超球面にまたがるユーザとアイテムの均一な分布を規定している。
本研究は,多モードレコメンデータシステムのコンテキストにおけるアライメントと均一性特性を再検討し,アライメントの抑制に一様性を優先する既存モデル間の確率性を明らかにする。
我々の仮説は、同値なアイテム処理が一様性を失うという従来の仮定に挑戦し、類似のマルチモーダル属性を持つアイテムが超球面多様体内の近位表現に収束するよりニュアンスなアプローチを提案する。
具体的には、アイテムのマルチモーダルデータ間の固有の類似性を利用して、その均一性分布を校正し、埋め込み空間内の異種体間のより顕著な反発力を誘導する。
理論的解析により、この校正された一様性損失と従来の一様性関数の関係が解明される。
さらに,マルチモーダルな特徴の融合を強化するため,任意の数のモジュラリティを統合するために設計した球面B\'ezier法を導入し,その融合した特徴が同じ超球面多様体に制約されることを保証する。
5つの実世界のデータセットで実施された実証的な評価は、我々のアプローチが競合するベースラインよりも優れていることを裏付けるものである。
また,提案手法は,MLLM抽出機能の統合により,NDCG@20の性能を最大5.4%向上させることができることを示した。
ソースコードは、https://github.com/enoche/CM3.comで入手できる。
関連論文リスト
- Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - RAU: Towards Regularized Alignment and Uniformity for Representation Learning in Recommendation [7.193305599721105]
スパースアライメントや不均一な均一性問題に対処するために、正規化アライメントと統一性(RAU)を提案する。
RAUはアライメントと統一性のための2つの新しい正規化手法で構成され、より良いユーザ/イテム表現を学習する。
論文 参考訳(メタデータ) (2025-03-24T03:03:21Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [7.947217265041953]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Disentangled Interleaving Variational Encoding [1.132458063021286]
本稿では,変分オートエンコーダの潜時空間において,元の入力を限界値と条件値の確率分布に分解する原理的手法を提案する。
提案モデルであるDeep Disentangled Interleaving Variationalを提案する。
コーダ(DeepDIVE)は、元の入力から切り離された特徴を学習し、埋め込み空間にクラスタを形成する。
2つの公開データセットの実験は、DeepDIVEが元の入力をアンタングルし、元のVAEよりも予測精度が良いことを示している。
論文 参考訳(メタデータ) (2025-01-15T10:50:54Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Geodesic Multi-Modal Mixup for Robust Fine-Tuning [21.298732743643168]
微調整後でもCLIPは均一性や整列性に乏しいことが判明した。
画像とテキストの埋め込みを混合してハードネガティブなサンプルを生成するジオデシック・マルチモーダル・ミックスアップを提案する。
本手法は,多種多様なタスクに対するロバストなモデル適応を実現するため,転送可能な表現を提供する。
論文 参考訳(メタデータ) (2022-03-08T07:34:52Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。