論文の概要: CROSSAN: Towards Efficient and Effective Adaptation of Multiple Multimodal Foundation Models for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2504.10307v2
- Date: Fri, 12 Sep 2025 20:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.051284
- Title: CROSSAN: Towards Efficient and Effective Adaptation of Multiple Multimodal Foundation Models for Sequential Recommendation
- Title(参考訳): CROSSAN:シーケンスレコメンデーションのための複数のマルチモーダルファンデーションモデルの効率的かつ効果的な適応を目指して
- Authors: Junchen Fu, Yongxin Ni, Joemon M. Jose, Ioannis Arapakis, Kaiwen Zheng, Youhua Li, Xuri Ge,
- Abstract要約: クロスモーダルサイドアダプタネットワーク(CROSSAN)
公開ベンチマークの実験では、CROSSANが既存のメソッドを一貫して上回っていることが示されている。
将来の研究を円滑にするために、コードとデータセットをリリースします。
- 参考スコア(独自算出の注目度): 21.16016539241881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore a less-studied yet practically important problem: how to efficiently and effectively adapt multiple ($>$2) multimodal foundation models (MFMs) for the sequential recommendation task. To this end, we propose a plug-and-play Cross-modal Side Adapter Network (CROSSAN), which leverages a fully decoupled side adapter-based paradigm to achieve efficient and scalable adaptation. Compared to the state-of-the-art efficient approaches, CROSSAN reduces training time by over 30%, GPU memory consumption by 20%, and trainable parameters by over 57%, while enabling effective cross-modal learning across diverse modalities. To further enhance multimodal fusion, we introduce the Mixture of Modality Expert Fusion (MOMEF) mechanism. Extensive experiments on public benchmarks demonstrate that CROSSAN consistently outperforms existing methods, achieving 6.7%--8.1% performance improvements when adapting four foundation models with raw modalities. Moreover, the overall performance continues to improve as more MFMs are incorporated. We will release our code and datasets to faciliate future research.
- Abstract(参考訳): 本稿では,複数のマルチモーダルファンデーションモデル(MFM)を効率よく効果的に適用する方法について検討する。
この目的のために,完全に分離されたサイドアダプタベースのパラダイムを活用して,効率的かつスケーラブルな適応を実現するクロスモーダルサイドアダプタネットワーク(CROSSAN)を提案する。
最先端の効率的なアプローチと比較して、CROSSANはトレーニング時間を30%以上削減し、GPUメモリ消費を20%削減し、トレーニング可能なパラメータを57%以上削減すると同時に、さまざまなモードにわたる効果的なクロスモーダル学習を実現している。
マルチモーダル核融合をさらに強化するため,MOMEF(Mixture of Modality Expert Fusion)機構を導入する。
公開ベンチマークに関する大規模な実験により、CROSSANは既存の手法を一貫して上回り、6.7%~8.1%の性能向上を達成した。
さらに、より多くのMFMが組み込まれているため、全体的なパフォーマンスは改善され続けている。
将来の研究を円滑にするために、コードとデータセットをリリースします。
関連論文リスト
- MokA: Multimodal Low-Rank Adaptation for MLLMs [11.440424554587674]
マルチモーダル低ランク適応(MokA)は、マルチモーダル対応の効率的な微調整戦略である。
MokAは、モダリティ固有のパラメータによって一様情報を圧縮し、クロスモーダル相互作用を明示的に強化する。
論文 参考訳(メタデータ) (2025-06-05T16:04:08Z) - Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning [3.8984478257737734]
マルチモーダルモデルはクロスモーダルなタスクでは優れているが、数十億のパラメータのために計算コストが高い。
既存の手法は主にユニモーダル処理に重点を置いており、マルチモーダルタスクに必要な重要なモーダル融合を見越している。
我々は,従来のPEFTフレームワークを拡張して,マルチモーダルな専門家の組み合わせをサポートし,情報インタラクションを改善する専門家の混在を提案する。
論文 参考訳(メタデータ) (2025-03-26T15:26:18Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Unleashing the Potential of Multi-Channel Fusion in Retrieval for Personalized Recommendations [33.79863762538225]
Recommender System(RS)の重要な課題は、大量のアイテムプールを効率的に処理して、厳格なレイテンシ制約の下で高度にパーソナライズされたレコメンデーションを提供することだ。
本稿では,各チャネルに最適化された重みを割り当てることで,先進的なチャネル融合戦略を検討する。
当社の手法はパーソナライズと柔軟性を両立させ,複数のデータセット間で大幅なパフォーマンス向上を実現し,現実のデプロイメントにおいて大きな成果を上げている。
論文 参考訳(メタデータ) (2024-10-21T14:58:38Z) - Train Once, Deploy Anywhere: Matryoshka Representation Learning for Multimodal Recommendation [27.243116376164906]
マルチモーダルレコメンデーションのための大規模Matryoshka表現学習(fMRLRec)という軽量フレームワークを導入する。
当社のfMRLRecは,複数次元にわたる効率的なレコメンデーションのための情報表現を学習し,各項目の特徴を異なる粒度で捉えている。
複数のベンチマークデータセットに対するfMRLRecの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-09-25T05:12:07Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。