論文の概要: CROSSAN: Towards Efficient and Effective Adaptation of Multiple Multimodal Foundation Models for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2504.10307v1
- Date: Mon, 14 Apr 2025 15:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:48:36.283624
- Title: CROSSAN: Towards Efficient and Effective Adaptation of Multiple Multimodal Foundation Models for Sequential Recommendation
- Title(参考訳): CROSSAN:シーケンスレコメンデーションのための複数のマルチモーダルファンデーションモデルの効率的かつ効果的な適応を目指して
- Authors: Junchen Fu, Yongxin Ni, Joemon M. Jose, Ioannis Arapakis, Kaiwen Zheng, Youhua Li, Xuri Ge,
- Abstract要約: MFM(Multimodal Foundation Models)は、様々な生のモダリティを表現できる。
シーケンシャルレコメンデーションにおけるMFMの応用は、まだほとんど解明されていない。
シーケンシャルレコメンデーションタスクに複数の (>2) MFM を効率的に適用できるかどうかは不明だ。
プラグアンドプレイ型クロスモーダルサイドアダプタネットワーク(CROSSAN)を提案する。
- 参考スコア(独自算出の注目度): 6.013740443562439
- License:
- Abstract: Multimodal Foundation Models (MFMs) excel at representing diverse raw modalities (e.g., text, images, audio, videos, etc.). As recommender systems increasingly incorporate these modalities, leveraging MFMs to generate better representations has great potential. However, their application in sequential recommendation remains largely unexplored. This is primarily because mainstream adaptation methods, such as Fine-Tuning and even Parameter-Efficient Fine-Tuning (PEFT) techniques (e.g., Adapter and LoRA), incur high computational costs, especially when integrating multiple modality encoders, thus hindering research progress. As a result, it remains unclear whether we can efficiently and effectively adapt multiple (>2) MFMs for the sequential recommendation task. To address this, we propose a plug-and-play Cross-modal Side Adapter Network (CROSSAN). Leveraging the fully decoupled side adapter-based paradigm, CROSSAN achieves high efficiency while enabling cross-modal learning across diverse modalities. To optimize the final stage of multimodal fusion across diverse modalities, we adopt the Mixture of Modality Expert Fusion (MOMEF) mechanism. CROSSAN achieves superior performance on the public datasets for adapting four foundation models with raw modalities. Performance consistently improves as more MFMs are adapted. We will release our code and datasets to facilitate future research.
- Abstract(参考訳): MFM(Multimodal Foundation Models)は、さまざまな生のモダリティ(テキスト、画像、オーディオ、ビデオなど)を表現できる。
推薦システムがこれらのモダリティをますます取り入れているように、より優れた表現を生成するためにMCMを活用することは大きな可能性を秘めている。
しかし、シーケンシャルなレコメンデーションにおけるそれらの適用は、ほとんど探索されていない。
これは主に、ファインチューニングやパラメータ効率の良いファインチューニング(PEFT)技術(例えば、AdapterやLoRA)のような主流の適応手法が、特に複数のモダリティエンコーダを統合する際に高い計算コストを発生させ、研究の進歩を妨げるためである。
その結果、シーケンシャルレコメンデーションタスクに複数の (>2) MFM を効果的かつ効果的に適用できるかどうかは不明である。
そこで我々は,CROSSAN (Cross-modal Side Adapter Network) を提案する。
完全に分離されたサイドアダプタベースのパラダイムを活用することで、CROSSANは、さまざまなモダリティをまたいだクロスモーダルな学習を可能にしながら、高い効率を達成する。
マルチモーダル核融合の最終段階を最適化するために、MOMEF(Mixture of Modality Expert Fusion)機構を採用する。
CROSSANは、4つの基礎モデルを生のモダリティで適応するための公開データセット上での優れたパフォーマンスを実現している。
MFMが適応するにつれて、パフォーマンスは一貫して改善される。
将来の研究を促進するために、コードとデータセットをリリースします。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Unleashing the Potential of Multi-Channel Fusion in Retrieval for Personalized Recommendations [33.79863762538225]
Recommender System(RS)の重要な課題は、大量のアイテムプールを効率的に処理して、厳格なレイテンシ制約の下で高度にパーソナライズされたレコメンデーションを提供することだ。
本稿では,各チャネルに最適化された重みを割り当てることで,先進的なチャネル融合戦略を検討する。
当社の手法はパーソナライズと柔軟性を両立させ,複数のデータセット間で大幅なパフォーマンス向上を実現し,現実のデプロイメントにおいて大きな成果を上げている。
論文 参考訳(メタデータ) (2024-10-21T14:58:38Z) - Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation [27.243116376164906]
マルチモーダルレコメンデーションのための大規模Matryoshka表現学習(fMRLRec)という軽量フレームワークを導入する。
当社のfMRLRecは,複数次元にわたる効率的なレコメンデーションのための情報表現を学習し,各項目の特徴を異なる粒度で捉えている。
複数のベンチマークデータセットに対するfMRLRecの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-09-25T05:12:07Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。