論文の概要: ATFLRec: A Multimodal Recommender System with Audio-Text Fusion and Low-Rank Adaptation via Instruction-Tuned Large Language Model
- arxiv url: http://arxiv.org/abs/2409.08543v1
- Date: Fri, 13 Sep 2024 05:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:48:25.268876
- Title: ATFLRec: A Multimodal Recommender System with Audio-Text Fusion and Low-Rank Adaptation via Instruction-Tuned Large Language Model
- Title(参考訳): ATFLRec:インストラクション付き大言語モデルによるオーディオテキストフュージョンと低ランク適応によるマルチモーダルレコメンダシステム
- Authors: Zezheng Qin,
- Abstract要約: 本研究では,大規模言語モデル(LLM)へのマルチモーダルデータテキストと音声の統合について検討する。
従来のテキストやオーディオレコメンデータは、コールドスタート問題のような制限に直面する。
Low-Rank Adaptation (LoRA)を導入し、性能を損なうことなく効率を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender Systems (RS) play a pivotal role in boosting user satisfaction by providing personalized product suggestions in domains such as e-commerce and entertainment. This study examines the integration of multimodal data text and audio into large language models (LLMs) with the aim of enhancing recommendation performance. Traditional text and audio recommenders encounter limitations such as the cold-start problem, and recent advancements in LLMs, while promising, are computationally expensive. To address these issues, Low-Rank Adaptation (LoRA) is introduced, which enhances efficiency without compromising performance. The ATFLRec framework is proposed to integrate audio and text modalities into a multimodal recommendation system, utilizing various LoRA configurations and modality fusion techniques. Results indicate that ATFLRec outperforms baseline models, including traditional and graph neural network-based approaches, achieving higher AUC scores. Furthermore, separate fine-tuning of audio and text data with distinct LoRA modules yields optimal performance, with different pooling methods and Mel filter bank numbers significantly impacting performance. This research offers valuable insights into optimizing multimodal recommender systems and advancing the integration of diverse data modalities in LLMs.
- Abstract(参考訳): Recommender Systems(RS)は、eコマースやエンターテイメントなどのドメインでパーソナライズされた製品提案を提供することによって、ユーザの満足度を高める上で重要な役割を担っている。
本研究では,マルチモーダルデータテキストと音声を大規模言語モデル(LLM)に統合し,レコメンデーション性能を向上させることを目的とした。
従来のテキストやオーディオレコメンデータは、コールドスタート問題のような制限に直面する。
これらの問題に対処するためにローランド適応(LoRA)を導入し、性能を損なうことなく効率を向上させる。
ATFLRecフレームワークは、様々なLoRA構成とモダリティ融合技術を利用して、オーディオとテキストのモダリティをマルチモーダルレコメンデーションシステムに統合するために提案されている。
ATFLRecは、従来のニューラルネットワークやグラフニューラルネットワークベースのアプローチなど、ベースラインモデルよりも優れており、より高いAUCスコアが達成されている。
さらに、異なるLoRAモジュールによる音声とテキストデータの微調整は、異なるプーリング法とMelフィルタバンク数で性能に大きな影響を及ぼすため、最適な性能が得られる。
本研究は、マルチモーダルレコメンデータシステムの最適化と、LLMにおける多様なデータモダリティの統合の促進に関する貴重な知見を提供する。
関連論文リスト
- STAR: A Simple Training-free Approach for Recommendations using Large Language Models [36.18841135511487]
大規模言語モデル(LLM)の最近の進歩は、レコメンデーションシステム(RecSys)タスクに有望な新しいアプローチを提供する。
LLMを利用するフレームワークを提案し、微調整を必要とせずに様々なレコメンデーションタスクに適用できる。
本手法はHits@10のパフォーマンスが23.8%,Toys and Gamesが37.5%,Sports and Outdoorsが1.8%であった。
論文 参考訳(メタデータ) (2024-10-21T19:34:40Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。
我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。
M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文 参考訳(メタデータ) (2024-09-03T04:55:03Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - MMREC: LLM Based Multi-Modal Recommender System [2.3113916776957635]
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。
提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T04:31:29Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。