論文の概要: Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2408.09698v2
- Date: Tue, 20 Aug 2024 16:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:23:48.890254
- Title: Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation
- Title(参考訳): マルチモーダルシーケンスレコメンデーションのためのマルチモーダル大言語モデルのハーネス化
- Authors: Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong,
- Abstract要約: 本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
- 参考スコア(独自算出の注目度): 21.281471662696372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Multimodaln Sequential Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩はレコメンデーションシステム (RSs) の分野で大きな可能性を示している。
既存の研究の多くは、ユーザの行動ログをテキストプロンプトに変換し、レコメンデーションタスクにLLMを有効にするためのプロンプトチューニングのようなテクニックを活用することに重点を置いている。
一方、近年、画像、テキスト、その他のソースからのデータをモダリティ融合技術を用いて統合するマルチモーダルレコメンデーションシステムにおいて、研究の関心が高まっている。
これは、テキストモダリティ情報のみに依存する既存のLLMベースのレコメンデーションパラダイムに、新たな課題をもたらす。
さらに、マルチモーダル入力を処理できるマルチモーダル大言語モデル(MLLM)が登場しているが、マルチモーダルレコメンデーション機能を備えたMLLMの装備方法はまだ明らかになっていない。
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
具体的には、まずMLLMをベースとしたアイテムサマリザを用いて、与えられた画像の特徴を抽出し、画像からテキストに変換する。
次に,LLMに基づくユーザ・サマリエーザに基づいて,ユーザの嗜好の動的変化を捉えるために,繰り返しユーザ・プライオリティ・サマリゼーション・ジェネレーション・パラダイムを用いる。
最後に,マルチモーダルレコメンデーションタスクにおけるMLLMを有効にするために,Supervised Fine-Tuning(SFT)技術を用いてMLLMベースのレコメンデータを微調整することを提案する。
MLLM-MSRの有効性を検証し、ユーザの好みの進化するダイナミクスを捉え、適応する優れた能力を示す。
関連論文リスト
- UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - PMG : Personalized Multimodal Generation with Large Language Models [20.778869086174137]
本稿では,大規模言語モデル(LLM)を用いたパーソナライズされたマルチモーダル生成手法を提案する。
2つのデータセットに関する広範な実験を通じて、その応用を実証し、その性能を検証する。
PMGのパーソナライゼーションはLPIPSで最大8%向上し, 生成精度は向上した。
論文 参考訳(メタデータ) (2024-04-07T03:05:57Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。