論文の概要: TALKPLAY: Multimodal Music Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13713v2
- Date: Thu, 20 Feb 2025 02:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 10:45:26.500719
- Title: TALKPLAY: Multimodal Music Recommendation with Large Language Models
- Title(参考訳): TALKPLAY:大規模言語モデルによるマルチモーダル音楽レコメンデーション
- Authors: Seungheon Doh, Keunwoo Choi, Juhan Nam,
- Abstract要約: TalkPlayは、複数のモダリティをエンコードする拡張トークン語彙を通じて音楽を表現する。
モデルは、音楽レコメンデーションの会話において、次のトーケン予測を通じてレコメンデーションを生成することを学習する。
提案手法は従来のレコメンデーション-対話パイプラインの複雑さを排除し,クエリ対応の音楽レコメンデーションのエンドツーエンド学習を可能にする。
- 参考スコア(独自算出の注目度): 6.830154140450626
- License:
- Abstract: We present TalkPlay, a multimodal music recommendation system that reformulates the recommendation task as large language model token generation. TalkPlay represents music through an expanded token vocabulary that encodes multiple modalities - audio, lyrics, metadata, semantic tags, and playlist co-occurrence. Using these rich representations, the model learns to generate recommendations through next-token prediction on music recommendation conversations, that requires learning the associations natural language query and response, as well as music items. In other words, the formulation transforms music recommendation into a natural language understanding task, where the model's ability to predict conversation tokens directly optimizes query-item relevance. Our approach eliminates traditional recommendation-dialogue pipeline complexity, enabling end-to-end learning of query-aware music recommendations. In the experiment, TalkPlay is successfully trained and outperforms baseline methods in various aspects, demonstrating strong context understanding as a conversational music recommender.
- Abstract(参考訳): 本研究では,提案課題を大規模言語モデルトークン生成として再構成するマルチモーダル音楽レコメンデーションシステムであるTalkPlayを提案する。
TalkPlayは、音声、歌詞、メタデータ、セマンティックタグ、プレイリストの共起をエンコードする拡張されたトークン語彙を通じて音楽を表現する。
このモデルでは、これらの豊かな表現を用いて、音楽推薦会話の次のトーケント予測を通じてレコメンデーションを生成することを学び、それには、自然言語のクエリと応答、そして音楽アイテムの関連性を学ぶ必要がある。
言い換えれば、この定式化は音楽の推薦を自然言語理解タスクに変換し、そこではモデルが会話トークンを予測できる能力がクエリ・イテムの関連性を直接最適化する。
提案手法は従来のレコメンデーション-対話パイプラインの複雑さを排除し,クエリ対応の音楽レコメンデーションのエンドツーエンド学習を可能にする。
実験では、TalkPlayはトレーニングが成功し、さまざまな面でベースラインメソッドよりも優れており、会話型音楽レコメンデータとしての強いコンテキスト理解が示されています。
関連論文リスト
- Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models [10.022036983890091]
本稿では,多言語モデル(LLM)とユーザ意図,システム動作,音楽属性を用いたリッチな音楽発見対話のためのデータ生成フレームワークを提案する。
このフレームワークをMario Songデータセットに適用することにより,大規模言語モデルに基づくPseudo Music DialogueデータセットであるLP-MusicDialogを作成する。
評価の結果,人工音声データセットは,既存の小さな対話データセットと競合することがわかった。
論文 参考訳(メタデータ) (2024-11-11T23:40:45Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - MuseChat: A Conversational Music Recommendation System for Videos [12.47508840909336]
MuseChatは、ビデオのための音楽提案をパーソナライズする対話ベースのレコメンデーションシステムである。
我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。
実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-10-10T03:32:33Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。