論文の概要: Efficient and Effective Adaptation of Multimodal Foundation Models in Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2411.02992v1
- Date: Tue, 05 Nov 2024 10:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:58:56.690373
- Title: Efficient and Effective Adaptation of Multimodal Foundation Models in Sequential Recommendation
- Title(参考訳): シークエンシャルレコメンデーションにおけるマルチモーダルファンデーションモデルの効率的かつ効果的な適応
- Authors: Junchen Fu, Xuri Ge, Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Kaiwen Zheng, Yongxin Ni, Joemon M. Jose,
- Abstract要約: IISAN は対称的 MFM と同一のテキストと画像エンコーダに限られており、最先端の大規模言語モデルの使用を妨げていた。
We developed IISAN-Versa, a simpletile plug-and-play architecture with symmetrical and asymmetrical MFMs。
IISAN-Versaは、大文字エンコーダを効果的に適用し、大文字エンコーダが通常より良く機能するスケーリング効果を更に同定する。
- 参考スコア(独自算出の注目度): 43.524099888917384
- License:
- Abstract: Multimodal foundation models (MFMs) have revolutionized sequential recommender systems through advanced representation learning. While Parameter-efficient Fine-tuning (PEFT) is commonly used to adapt these models, studies often prioritize parameter efficiency, neglecting GPU memory and training speed. To address this, we introduced the IISAN framework, significantly enhancing efficiency. However, IISAN was limited to symmetrical MFMs and identical text and image encoders, preventing the use of state-of-the-art Large Language Models. To overcome this, we developed IISAN-Versa, a versatile plug-and-play architecture compatible with both symmetrical and asymmetrical MFMs. IISAN-Versa employs a Decoupled PEFT structure and utilizes both intra- and inter-modal adaptation. It effectively handles asymmetry through a simple yet effective combination of group layer-dropping and dimension transformation alignment. Our research demonstrates that IISAN-Versa effectively adapts large text encoders, and we further identify a scaling effect where larger encoders generally perform better. IISAN-Versa also demonstrates strong versatility in our defined multimodal scenarios, which include raw titles and captions generated from images and videos. Additionally, IISAN-Versa achieved state-of-the-art performance on the Microlens public benchmark. We will release our code and datasets to support future research.
- Abstract(参考訳): MFM(Multimodal foundation model)は、先進的な表現学習を通じて、シーケンシャルなレコメンデーションシステムに革命をもたらした。
パラメータ効率ファインチューニング(PEFT)はこれらのモデルに適応するために一般的に用いられるが、研究はしばしばパラメータ効率を優先し、GPUメモリやトレーニング速度を無視する。
この問題に対処するため、我々はIISANフレームワークを導入し、効率を大幅に向上させた。
しかし、IISAN は対称的 MFM と同一のテキストと画像エンコーダに限られており、最先端の大規模言語モデルの使用を妨げていた。
そこで我々はIISAN-Versaを開発した。IISAN-Versaは対称的および非対称的MFMに互換性のある汎用的なプラグアンドプレイアーキテクチャである。
IISAN-VersaはDecoupled PEFT構造を採用し、イントラモーダルとインターモーダルの両方を使用している。
グループ層ドロップピングと次元変換アライメントの単純な組み合わせにより、非対称性を効果的に扱う。
本研究は,IISAN-Versaが大文字エンコーダを効果的に適用できることを実証し,大文字エンコーダの性能が向上するスケーリング効果を明らかにする。
IISAN-Versaはまた、画像やビデオから生成された原タイトルやキャプションを含む、定義済みのマルチモーダルシナリオにおいて、強力な汎用性を示す。
さらに、IISAN-VersaはMicrolensの公開ベンチマークで最先端のパフォーマンスを達成した。
将来の研究をサポートするために、コードとデータセットをリリースします。
関連論文リスト
- Towards Neural Scaling Laws for Time Series Foundation Models [63.5211738245487]
我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-16T08:23:39Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT [45.95678408227546]
IISAN(Intra- and Inter-modal Side Adapted Network for Multimodal Representation)は、シーケンシャルなレコメンデーションシステムのためのプラグイン・アンド・プレイアーキテクチャである。
IISANはフルファインチューニング(FFT)と最先端PEFTのパフォーマンスにマッチする。
マルチモーダルシーケンシャルレコメンデーションタスクでは、47GBからわずか3GBへと大幅に削減される。
論文 参考訳(メタデータ) (2024-04-02T15:58:36Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。