論文の概要: TALKPLAY: Multimodal Music Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13713v4
- Date: Mon, 26 May 2025 03:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.437417
- Title: TALKPLAY: Multimodal Music Recommendation with Large Language Models
- Title(参考訳): TALKPLAY:大規模言語モデルによるマルチモーダル音楽レコメンデーション
- Authors: Seungheon Doh, Keunwoo Choi, Juhan Nam,
- Abstract要約: 大規模言語モデル(LLM)を用いたトークン生成問題としてレコメンデーションを再構成する新しいマルチモーダル音楽レコメンデーションシステムTALKPLAYを提案する。
本システムは,コンテキストに関連のある応答を生成しながら,多様なユーザクエリから楽曲を効果的に推薦する。
質的,定量的評価により,TALKPLAYは,推奨性能と会話自然性の両方において,テキストや聴取履歴のみに基づく一助的アプローチを著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 6.830154140450626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present TALKPLAY, a novel multimodal music recommendation system that reformulates recommendation as a token generation problem using large language models (LLMs). By leveraging the instruction-following and natural language generation capabilities of LLMs, our system effectively recommends music from diverse user queries while generating contextually relevant responses. While pretrained LLMs are primarily designed for text modality, TALKPLAY extends their scope through two key innovations: a multimodal music tokenizer that encodes audio features, lyrics, metadata, semantic tags, and playlist co-occurrence signals; and a vocabulary expansion mechanism that enables unified processing and generation of both linguistic and music-relevant tokens. By integrating the recommendation system directly into the LLM architecture, TALKPLAY transforms conventional systems by: (1) unifying previous two-stage conversational recommendation systems (recommendation engines and dialogue managers) into a cohesive end-to-end system, (2) effectively utilizing long conversational context for recommendation while maintaining strong performance in extended multi-turn interactions, and (3) generating natural language responses for seamless user interaction. Our qualitative and quantitative evaluation demonstrates that TALKPLAY significantly outperforms unimodal approaches based solely on text or listening history in both recommendation performance and conversational naturalness.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) を用いたトークン生成問題として,レコメンデーションを再構成する新しいマルチモーダル音楽レコメンデーションシステムTALKPLAYを提案する。
LLMの命令追従機能と自然言語生成機能を活用することで,状況に応じた応答を生成しながら,多様なユーザクエリからの楽曲を効果的に推奨する。
事前訓練されたLLMは、主にテキストモダリティのために設計されているが、TALKPLAYは、音声特徴、歌詞、メタデータ、セマンティックタグ、プレイリストの共起信号を符号化するマルチモーダル音楽トークンライザと、言語および音楽関連トークンの統一処理と生成を可能にする語彙拡張機構の2つの主要な革新を通じて、そのスコープを拡張している。
このレコメンデーションシステムをLCMアーキテクチャに直接統合することにより、(1)従来の2段階の対話レコメンデーションシステム(レコメンデーションエンジンとダイアログマネージャ)を結合的なエンドツーエンドシステムに統一し、(2)拡張されたマルチターンインタラクションにおける強力なパフォーマンスを維持しつつ、推奨のための長い会話コンテキストを効果的に活用し、(3)シームレスなユーザインタラクションのための自然言語応答を生成する。
質的,定量的評価により,TALKPLAYは,推奨性能と会話自然性の両方において,テキストや聴取履歴のみに基づく一助的アプローチを著しく上回っていることが示された。
関連論文リスト
- Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models [10.022036983890091]
本稿では,多言語モデル(LLM)とユーザ意図,システム動作,音楽属性を用いたリッチな音楽発見対話のためのデータ生成フレームワークを提案する。
このフレームワークをMario Songデータセットに適用することにより,大規模言語モデルに基づくPseudo Music DialogueデータセットであるLP-MusicDialogを作成する。
評価の結果,人工音声データセットは,既存の小さな対話データセットと競合することがわかった。
論文 参考訳(メタデータ) (2024-11-11T23:40:45Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - MuseChat: A Conversational Music Recommendation System for Videos [12.47508840909336]
MuseChatは、ビデオのための音楽提案をパーソナライズする対話ベースのレコメンデーションシステムである。
我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。
実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-10-10T03:32:33Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - ALCAP: Alignment-Augmented Music Captioner [34.85003676798762]
コントラスト学習により,音声と歌詞のマルチモーダルアライメントを学習する手法を提案する。
これは、音声と歌詞のシナジーを認識し、強調するだけでなく、モデルがより深いモーダルなコヒーレンスを達成するための道を開く。
論文 参考訳(メタデータ) (2022-12-21T10:20:54Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。