論文の概要: VIP5: Towards Multimodal Foundation Models for Recommendation
- arxiv url: http://arxiv.org/abs/2305.14302v2
- Date: Sat, 14 Oct 2023 18:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 04:57:22.515424
- Title: VIP5: Towards Multimodal Foundation Models for Recommendation
- Title(参考訳): vip5:レコメンデーションのためのマルチモーダル基礎モデルに向けて
- Authors: Shijie Geng and Juntao Tan and Shuchang Liu and Zuohui Fu and Yongfeng
Zhang
- Abstract要約: 本稿では、様々なモダリティとレコメンデーションタスクを統合するためのMFM(Multimodal foundation model)の開発を提案する。
これを実現するために、共有フォーマットで複数のモダリティに対応するために、マルチモーダルパーソナライズされたプロンプトを導入する。
また,P5バックボーンと微調整型軽量アダプタを凍結する基礎モデルのパラメータ効率訓練手法を提案する。
- 参考スコア(独自算出の注目度): 47.32368265586631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer Vision (CV), Natural Language Processing (NLP), and Recommender
Systems (RecSys) are three prominent AI applications that have traditionally
developed independently, resulting in disparate modeling and engineering
methodologies. This has impeded the ability for these fields to directly
benefit from each other's advancements. With the recent development of
foundation models, large language models have emerged as a potential
general-purpose interface for unifying different modalities and problem
formulations. In light of this, we propose the development of a multimodal
foundation model (MFM) considering visual, textual, and personalization
modalities under the P5 recommendation paradigm, thus named VIP5 (Visual P5),
to unify various modalities and recommendation tasks. This will enable the
processing of multiple modalities in a shared architecture for improved
recommendations. To achieve this, we introduce multimodal personalized prompts
to accommodate multiple modalities under a shared format. Additionally, we
propose a parameter-efficient training method for foundation models, which
involves freezing the P5 backbone and fine-tuning lightweight adapters,
resulting in improved recommendation performance and increased efficiency in
terms of training time and memory usage. Code and data of VIP5 are available at
https://github.com/jeykigung/VIP5.
- Abstract(参考訳): Computer Vision(CV)、Natural Language Processing(NLP)、Recommender Systems(RecSys)は、伝統的に独立して開発された3つの著名なAIアプリケーションである。
このことは、これらの分野が互いの進歩から直接利益を得る能力を妨げている。
近年の基盤モデルの発展に伴い、様々なモダリティや問題定式化のための汎用インターフェースとして大きな言語モデルが登場している。
そこで本稿では,視覚,テキスト,パーソナライズモダリティを考慮した多モード基礎モデル(mfm)を開発し,vip5 (visual p5) と命名し,様々なモダリティとレコメンデーションタスクを統合する。
これにより、共有アーキテクチャにおける複数のモダリティの処理が可能になり、レコメンデーションが改善される。
これを実現するために、共有フォーマットで複数のモダリティに対応するマルチモーダルパーソナライズされたプロンプトを導入する。
さらに,p5バックボーンの凍結と軽量アダプタの微調整を含む基礎モデルのパラメータ効率のよいトレーニング手法を提案する。
vip5のコードとデータはhttps://github.com/jeykigung/vip5で入手できる。
関連論文リスト
- ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - E5-V: Universal Embeddings with Multimodal Large Language Models [51.5978154046302]
汎用マルチモーダル埋め込みを実現するためのMLLMに適応する新しいフレームワークであるE5-Vを導入する。
MLLMをプロンプトで活用することにより、E5-Vは異なるタイプの入力間のモダリティギャップを効果的に橋渡しする。
E5-Vは細調整なしでもマルチモーダル埋め込みにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2024-07-17T14:04:12Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized
Multimodal Framework [51.01581167257862]
UnifiedVisionGPTは、SOTAビジョンモデルの統合と自動化を目的とした新しいフレームワークである。
本稿では,UnifiedVisionGPTのアーキテクチャと機能について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文 参考訳(メタデータ) (2023-11-16T13:01:25Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Recommendation as Language Processing (RLP): A Unified Pretrain,
Personalized Prompt & Predict Paradigm (P5) [41.57432785137957]
提案手法は,“Pretrain, Personalized Prompt, and Predict Paradigm”(P5)と呼ばれる,フレキシブルで統一されたテキスト・テキスト・テキスト・パラダイムを推奨する。
ユーザ-テムインタラクション、アイテムメタデータ、ユーザレビューなどのすべてのデータは、自然言語シーケンスという共通のフォーマットに変換されます。
P5は事前トレーニング中に同じ言語モデリングの目的で異なるタスクを学習する。
論文 参考訳(メタデータ) (2022-03-24T22:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。