論文の概要: Just Ask for Music (JAM): Multimodal and Personalized Natural Language Music Recommendation
- arxiv url: http://arxiv.org/abs/2507.15826v1
- Date: Mon, 21 Jul 2025 17:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.511652
- Title: Just Ask for Music (JAM): Multimodal and Personalized Natural Language Music Recommendation
- Title(参考訳): Just Ask for Music (JAM):マルチモーダルでパーソナライズされた自然言語音楽レコメンデーション
- Authors: Alessandro B. Melchiorre, Elena V. Epure, Shahed Masoudian, Gustavo Escobedo, Anna Hausberger, Manuel Moussallam, Markus Schedl,
- Abstract要約: 我々は、自然言語音楽レコメンデーションのための軽量で直感的なフレームワークであるJAM(Just Ask for Music)を提示する。
音楽とユーザ意図の複雑さを捉えるため、JAMはクロスアテンションとスパース・ミックス・オブ・エキスパートを通じてマルチモーダルアイテムの特徴を集約する。
JAMは正確なレコメンデーションを提供し、実用的なユースケースに適した直感的な表現を生成し、既存のレコメンデーションスタックと容易に統合できることを示す。
- 参考スコア(独自算出の注目度): 47.05078668091976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language interfaces offer a compelling approach for music recommendation, enabling users to express complex preferences conversationally. While Large Language Models (LLMs) show promise in this direction, their scalability in recommender systems is limited by high costs and latency. Retrieval-based approaches using smaller language models mitigate these issues but often rely on single-modal item representations, overlook long-term user preferences, and require full model retraining, posing challenges for real-world deployment. In this paper, we present JAM (Just Ask for Music), a lightweight and intuitive framework for natural language music recommendation. JAM models user-query-item interactions as vector translations in a shared latent space, inspired by knowledge graph embedding methods like TransE. To capture the complexity of music and user intent, JAM aggregates multimodal item features via cross-attention and sparse mixture-of-experts. We also introduce JAMSessions, a new dataset of over 100k user-query-item triples with anonymized user/item embeddings, uniquely combining conversational queries and user long-term preferences. Our results show that JAM provides accurate recommendations, produces intuitive representations suitable for practical use cases, and can be easily integrated with existing music recommendation stacks.
- Abstract(参考訳): 自然言語インタフェースは音楽レコメンデーションに魅力的なアプローチを提供し、ユーザーは複雑な好みを会話で表現できる。
LLM(Large Language Models)はこの方向を約束するが、推奨システムにおけるスケーラビリティは、高いコストとレイテンシによって制限される。
より小さな言語モデルを使用した検索ベースのアプローチは、これらの問題を緩和するが、多くの場合、シングルモーダルなアイテム表現に依存し、長期的なユーザの好みを見落とし、完全なモデル再トレーニングを必要とし、現実のデプロイメントに課題を提起する。
本稿では,自然言語音楽レコメンデーションのための軽量かつ直感的なフレームワークであるJAM(Just Ask for Music)を提案する。
JAMは、TransEのような知識グラフ埋め込みメソッドにインスパイアされた、共有潜在空間におけるベクトル変換として、ユーザ-クエリ-イテム相互作用をモデル化する。
音楽とユーザ意図の複雑さを捉えるため、JAMはクロスアテンションとスパース・ミックス・オブ・エキスパートを通じてマルチモーダルアイテムの特徴を集約する。
JAMSessionsも導入しています。これは、匿名化されたユーザ/イテム埋め込みを備えた、100万以上のユーザクエリトリプルからなる新しいデータセットで、会話クエリとユーザ長期的な好みを一意に組み合わせています。
JAMは正確なレコメンデーションを提供し、実用的なユースケースに適した直感的な表現を生成し、既存のレコメンデーションスタックと容易に統合できることを示す。
関連論文リスト
- Creating General User Models from Computer Use [62.91116265732001]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。
GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文 参考訳(メタデータ) (2025-05-16T04:00:31Z) - HistLLM: A Unified Framework for LLM-Based Multimodal Recommendation with User History Encoding and Compression [33.34435467588446]
HistLLMは、ユーザ履歴を通じてテキストと視覚機能を統合する革新的なフレームワークである。
モジュール (UHEM) は、ユーザ履歴のインタラクションを単一のトークン表現に圧縮する。
提案手法の有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-04-14T12:01:11Z) - TALKPLAY: Multimodal Music Recommendation with Large Language Models [6.830154140450626]
大規模言語モデル(LLM)を用いたトークン生成問題としてレコメンデーションを再構成する新しいマルチモーダル音楽レコメンデーションシステムTALKPLAYを提案する。
本システムは,コンテキストに関連のある応答を生成しながら,多様なユーザクエリから楽曲を効果的に推薦する。
質的,定量的評価により,TALKPLAYは,推奨性能と会話自然性の両方において,テキストや聴取履歴のみに基づく一助的アプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-19T13:28:20Z) - LLM-ESR: Large Language Models Enhancement for Long-tailed Sequential Recommendation [58.04939553630209]
現実世界のシステムでは、ほとんどのユーザーはほんの一握りのアイテムしか扱わないが、ほとんどのアイテムは滅多に消費されない。
これら2つの課題は、ロングテールユーザーとロングテールアイテムの課題として知られ、しばしば既存のシークエンシャルレコメンデーションシステムに困難をもたらす。
本稿では,これらの課題に対処するため,Large Language Models Enhancement framework for Sequential Recommendation (LLM-ESR)を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:24:42Z) - Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - Interpreting User Requests in the Context of Natural Language Standing
Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。
NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文 参考訳(メタデータ) (2023-11-16T11:19:26Z) - Large Language Models are Competitive Near Cold-start Recommenders for
Language- and Item-based Preferences [33.81337282939615]
言語ベースの嗜好を表現するダイアログインタフェースは、嗜好入力に対して根本的に異なるモダリティを提供する。
近年の大規模言語モデル(LLM)のパラダイム導入の成功に触発されて,提案手法の活用について検討した。
論文 参考訳(メタデータ) (2023-07-26T14:47:15Z) - Beyond Single Items: Exploring User Preferences in Item Sets with the
Conversational Playlist Curation Dataset [20.42354123651454]
私たちはこのタスクを会話アイテムセットキュレーションと呼びます。
本稿では,会話環境におけるアイテムセットのリアルな嗜好を効率的に収集する新しいデータ収集手法を提案する。
我々は、それが他の方法では表現されない好みを表現することにつながることを示している。
論文 参考訳(メタデータ) (2023-03-13T00:39:04Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。