Fugu-MT 論文翻訳(概要): Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

論文の概要: Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

arxiv url: http://arxiv.org/abs/2408.09698v4
Date: Tue, 5 Nov 2024 03:32:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 06:55:48.686389
Title: Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation
Title（参考訳）: マルチモーダルシーケンスレコメンデーションのためのマルチモーダル大言語モデルのハーネス化
Authors: Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong,
Abstract要約: 本稿では,MLLM-MSRモデルを提案する。動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
参考スコア（独自算出の注目度）: 21.281471662696372
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Multimodaln Sequential Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.
Abstract（参考訳）: 近年のLarge Language Models (LLMs) の進歩はレコメンデーションシステム (RSs) の分野で大きな可能性を示している。既存の研究の多くは、ユーザの行動ログをテキストプロンプトに変換し、レコメンデーションタスクにLLMを有効にするためのプロンプトチューニングのようなテクニックを活用することに重点を置いている。一方、近年、画像、テキスト、その他のソースからのデータをモダリティ融合技術を用いて統合するマルチモーダルレコメンデーションシステムにおいて、研究の関心が高まっている。これは、テキストモダリティ情報のみに依存する既存のLLMベースのレコメンデーションパラダイムに、新たな課題をもたらす。さらに、マルチモーダル入力を処理できるマルチモーダル大言語モデル(MLLM)が登場しているが、マルチモーダルレコメンデーション機能を備えたMLLMの装備方法はまだ明らかになっていない。本稿では,MLLM-MSRモデルを提案する。動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。具体的には、まずMLLMをベースとしたアイテムサマリザを用いて、与えられた画像の特徴を抽出し、画像からテキストに変換する。次に,LLMに基づくユーザ・サマリエーザに基づいて,ユーザの嗜好の動的変化を捉えるために,繰り返しユーザ・プライオリティ・サマリゼーション・ジェネレーション・パラダイムを用いる。最後に,マルチモーダルレコメンデーションタスクにおけるMLLMを有効にするために,Supervised Fine-Tuning(SFT)技術を用いてMLLMベースのレコメンデータを微調整することを提案する。 MLLM-MSRの有効性を検証し、ユーザの好みの進化するダイナミクスを捉え、適応する優れた能力を示す。

関連論文リスト

DMESR: Dual-view MLLM-based Enhancing Framework for Multimodal Sequential Recommendation [13.114773060703891]
マルチモーダルシーケンスレコメンデーション(DMESR)のためのデュアルビューMLLMベースのエンハンシングフレームワークを提案する。ここでは,MLLM が生成する言語間の意味表現の整合に,コントラスト学習機構を用いる。細粒度セマンティクスを欠くために,MLLMから得られた粗粒度セマンティクスと細粒度テキストセマンティクスを統合したクロスアテンション融合モジュールを導入する。
論文参考訳（メタデータ） (2026-02-14T10:42:56Z)
Can a Unimodal Language Agent Provide Preferences to Tune a Multimodal Vision-Language Model? [8.976163131623773]
本稿では,言語エージェントが視覚言語モデル(VLM)にフィードバックを与え,テキスト生成をエージェントの好みに適応させる手法を提案する。提案手法を用いることで,VLMはマルチモーダルなシーン記述を生成することができ,マルチモーダルなコンテキストをよりよく理解できるようにする。
論文参考訳（メタデータ） (2026-01-10T04:28:53Z)
MMSRARec: Summarization and Retrieval Augumented Sequential Recommendation Based on Multimodal Large Language Model [18.920729109005435]
本稿では,マルチモーダル要約と検索拡張シーケンスレコメンデーションを提案する。まずMLLMを用いて、項目を簡潔なキーワードに要約し、要約長、情報損失、再構成難易度を含む報酬を用いてモデルを微調整する。検索拡張生成にインスパイアされ、協調信号を対応するキーワードに変換し、補足コンテキストとして統合する。
論文参考訳（メタデータ） (2025-12-24T03:44:25Z)
A Survey on Large Language Models in Multimodal Recommender Systems [1.55768790532133]
マルチモーダルレコメンデータシステム(MRS)は、テキスト、画像、構造化情報などの異種ユーザやアイテムデータを統合し、レコメンデーション性能を高める。大規模言語モデル(LLM)の出現は、意味論的推論、文脈内学習、動的入力処理を可能にすることで、MSSに新たな機会をもたらす。
論文参考訳（メタデータ） (2025-05-14T20:15:52Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
HistLLM: A Unified Framework for LLM-Based Multimodal Recommendation with User History Encoding and Compression [33.34435467588446]
HistLLMは、ユーザ履歴を通じてテキストと視覚機能を統合する革新的なフレームワークである。モジュール (UHEM) は、ユーザ履歴のインタラクションを単一のトークン表現に圧縮する。提案手法の有効性と有効性を示す実験を行った。
論文参考訳（メタデータ） (2025-04-14T12:01:11Z)
TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文参考訳（メタデータ） (2025-04-14T05:44:38Z)
Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文参考訳（メタデータ） (2025-04-13T07:49:08Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。 M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文参考訳（メタデータ） (2024-12-24T05:23:13Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。 M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文参考訳（メタデータ） (2024-09-03T04:55:03Z)
MMREC: LLM Based Multi-Modal Recommender System [2.3113916776957635]
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
論文参考訳（メタデータ） (2024-08-08T04:31:29Z)
UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文参考訳（メタデータ） (2024-07-23T03:58:08Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
PMG : Personalized Multimodal Generation with Large Language Models [20.778869086174137]
本稿では,大規模言語モデル(LLM)を用いたパーソナライズされたマルチモーダル生成手法を提案する。 2つのデータセットに関する広範な実験を通じて、その応用を実証し、その性能を検証する。 PMGのパーソナライゼーションはLPIPSで最大8%向上し, 生成精度は向上した。
論文参考訳（メタデータ） (2024-04-07T03:05:57Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。