論文の概要: TALKPLAY: Multimodal Music Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13713v3
- Date: Wed, 26 Feb 2025 01:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 13:11:30.924188
- Title: TALKPLAY: Multimodal Music Recommendation with Large Language Models
- Title(参考訳): TALKPLAY:大規模言語モデルによるマルチモーダル音楽レコメンデーション
- Authors: Seungheon Doh, Keunwoo Choi, Juhan Nam,
- Abstract要約: TalkPlayは、複数のモダリティをエンコードする拡張トークン語彙を通じて音楽を表現する。
モデルは、音楽レコメンデーションの会話において、次のトーケン予測を通じてレコメンデーションを生成することを学習する。
提案手法は従来のレコメンデーション-対話パイプラインの複雑さを排除し,クエリ対応の音楽レコメンデーションのエンドツーエンド学習を可能にする。
- 参考スコア(独自算出の注目度): 6.830154140450626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present TalkPlay, a multimodal music recommendation system that reformulates the recommendation task as large language model token generation. TalkPlay represents music through an expanded token vocabulary that encodes multiple modalities - audio, lyrics, metadata, semantic tags, and playlist co-occurrence. Using these rich representations, the model learns to generate recommendations through next-token prediction on music recommendation conversations, that requires learning the associations natural language query and response, as well as music items. In other words, the formulation transforms music recommendation into a natural language understanding task, where the model's ability to predict conversation tokens directly optimizes query-item relevance. Our approach eliminates traditional recommendation-dialogue pipeline complexity, enabling end-to-end learning of query-aware music recommendations. In the experiment, TalkPlay is successfully trained and outperforms baseline methods in various aspects, demonstrating strong context understanding as a conversational music recommender.
- Abstract(参考訳): 本研究では,提案課題を大規模言語モデルトークン生成として再構成するマルチモーダル音楽レコメンデーションシステムであるTalkPlayを提案する。
TalkPlayは、音声、歌詞、メタデータ、セマンティックタグ、プレイリストの共起をエンコードする拡張されたトークン語彙を通じて音楽を表現する。
このモデルでは、これらの豊かな表現を用いて、音楽推薦会話の次のトーケント予測を通じてレコメンデーションを生成することを学び、それには、自然言語のクエリと応答、そして音楽アイテムの関連性を学ぶ必要がある。
言い換えれば、この定式化は音楽の推薦を自然言語理解タスクに変換し、そこではモデルが会話トークンを予測できる能力がクエリ・イテムの関連性を直接最適化する。
提案手法は従来のレコメンデーション-対話パイプラインの複雑さを排除し,クエリ対応の音楽レコメンデーションのエンドツーエンド学習を可能にする。
実験では、TalkPlayはトレーニングが成功し、さまざまな面でベースラインメソッドよりも優れており、会話型音楽レコメンデータとしての強いコンテキスト理解が示されています。
関連論文リスト
- Just Ask for Music (JAM): Multimodal and Personalized Natural Language Music Recommendation [47.05078668091976]
我々は、自然言語音楽レコメンデーションのための軽量で直感的なフレームワークであるJAM(Just Ask for Music)を提示する。
音楽とユーザ意図の複雑さを捉えるため、JAMはクロスアテンションとスパース・ミックス・オブ・エキスパートを通じてマルチモーダルアイテムの特徴を集約する。
JAMは正確なレコメンデーションを提供し、実用的なユースケースに適した直感的な表現を生成し、既存のレコメンデーションスタックと容易に統合できることを示す。
論文 参考訳(メタデータ) (2025-07-21T17:36:03Z) - NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。
提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-01T12:01:40Z) - System Message Generation for User Preferences using Open-Source Models [4.387048445855714]
システムメッセージは、大規模言語モデル(LLM)との相互作用において重要な役割を果たす
我々は,システムメッセージを生成するパイプラインであるSysGenを紹介した。
SysGenデータ上でのオープンソースモデルのトレーニングは、シングルターン(Multifacet)とマルチターン(SysBench)の会話ベンチマークの両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-02-17T01:05:31Z) - Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models [10.022036983890091]
本稿では,多言語モデル(LLM)とユーザ意図,システム動作,音楽属性を用いたリッチな音楽発見対話のためのデータ生成フレームワークを提案する。
このフレームワークをMario Songデータセットに適用することにより,大規模言語モデルに基づくPseudo Music DialogueデータセットであるLP-MusicDialogを作成する。
評価の結果,人工音声データセットは,既存の小さな対話データセットと競合することがわかった。
論文 参考訳(メタデータ) (2024-11-11T23:40:45Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Large Language Model Driven Recommendation [34.45328907249946]
言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。
この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
論文 参考訳(メタデータ) (2024-08-20T15:36:24Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - Item-Language Model for Conversational Recommendation [24.00379652557269]
ユーザインタラクション信号をエンコードするテキスト整列アイテム表現を生成するために,ILM(Item-Language Model)を提案する。
項目エンコーダにおける言語アライメントの重要性とユーザインタラクション知識の両立を実証する広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-05T01:35:50Z) - Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - MuseChat: A Conversational Music Recommendation System for Videos [12.47508840909336]
MuseChatは、ビデオのための音楽提案をパーソナライズする対話ベースのレコメンデーションシステムである。
我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。
実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-10-10T03:32:33Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - Leveraging Large Language Models in Conversational Recommender Systems [9.751217336860924]
Conversational Recommender System (CRS)は、リアルタイムのマルチターン対話を通じてシステムと対話できるようにすることにより、ユーザに対して透明性とコントロールを向上する。
大言語モデル(LLM)は、自然に会話し、世界知識と常識推論を言語理解に組み込むという前例のない能力を示した。
論文 参考訳(メタデータ) (2023-05-13T16:40:07Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - ALCAP: Alignment-Augmented Music Captioner [34.85003676798762]
コントラスト学習により,音声と歌詞のマルチモーダルアライメントを学習する手法を提案する。
これは、音声と歌詞のシナジーを認識し、強調するだけでなく、モデルがより深いモーダルなコヒーレンスを達成するための道を開く。
論文 参考訳(メタデータ) (2022-12-21T10:20:54Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。