論文の概要: Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07439v1
- Date: Mon, 11 Nov 2024 23:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:48.517865
- Title: Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models
- Title(参考訳): 人文分析と大規模言語モデルを用いた音楽発見対話生成
- Authors: SeungHeon Doh, Keunwoo Choi, Daeyong Kwon, Taesu Kim, Juhan Nam,
- Abstract要約: 本稿では,多言語モデル(LLM)とユーザ意図,システム動作,音楽属性を用いたリッチな音楽発見対話のためのデータ生成フレームワークを提案する。
このフレームワークをMario Songデータセットに適用することにより,大規模言語モデルに基づくPseudo Music DialogueデータセットであるLP-MusicDialogを作成する。
評価の結果,人工音声データセットは,既存の小さな対話データセットと競合することがわかった。
- 参考スコア(独自算出の注目度): 10.022036983890091
- License:
- Abstract: A conversational music retrieval system can help users discover music that matches their preferences through dialogue. To achieve this, a conversational music retrieval system should seamlessly engage in multi-turn conversation by 1) understanding user queries and 2) responding with natural language and retrieved music. A straightforward solution would be a data-driven approach utilizing such conversation logs. However, few datasets are available for the research and are limited in terms of volume and quality. In this paper, we present a data generation framework for rich music discovery dialogue using a large language model (LLM) and user intents, system actions, and musical attributes. This is done by i) dialogue intent analysis using grounded theory, ii) generating attribute sequences via cascading database filtering, and iii) generating utterances using large language models. By applying this framework to the Million Song dataset, we create LP-MusicDialog, a Large Language Model based Pseudo Music Dialogue dataset, containing over 288k music conversations using more than 319k music items. Our evaluation shows that the synthetic dataset is competitive with an existing, small human dialogue dataset in terms of dialogue consistency, item relevance, and naturalness. Furthermore, using the dataset, we train a conversational music retrieval model and show promising results.
- Abstract(参考訳): 対話型音楽検索システムは、ユーザが対話を通じて好みに合う音楽を見つけるのに役立つ。
これを実現するために、対話型音楽検索システムはマルチターン会話をシームレスに行うべきである。
1) ユーザクエリの理解と理解
2)自然言語に反応し,音楽の検索を行う。
簡単な解決策は、このような会話ログを利用したデータ駆動型アプローチである。
しかし、研究のために利用可能なデータセットはほとんどなく、ボリュームと品質の点で制限されている。
本稿では,大言語モデル(LLM)とユーザ意図,システム動作,音楽属性を用いたリッチな音楽発見対話のためのデータ生成フレームワークを提案する。
これは
一 接地理論を用いた対話意図分析
二 カスケーディングデータベースフィルタリングによる属性シーケンスの生成及び
三 大型言語モデルを用いた発話を生成すること。
このフレームワークをミリオンソングデータセットに適用することにより,319k以上の楽曲アイテムを用いた288k以上の音楽会話を含む,大規模言語モデルに基づくPseudo Music DialogueデータセットであるLP-MusicDialogを作成する。
本評価は, 対話の一貫性, 項目関連性, 自然性の観点から, 既存の人間の対話データセットと競合することを示す。
さらに,データセットを用いて対話型音楽検索モデルを訓練し,有望な結果を示す。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Audio Dialogues: Dialogues dataset for audio and music understanding [29.550656226658962]
音声対話(Audio Dialogues)は163.8kサンプルを含むマルチターン対話データセットである。
対話に加えて、Audio Dialoguesは複数の入力オーディオを理解し比較するための質問応答ペアも備えている。
論文 参考訳(メタデータ) (2024-04-11T10:08:34Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - q2d: Turning Questions into Dialogs to Teach Models How to Search [11.421839177607147]
質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-04-27T16:39:15Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Navigating Connected Memories with a Task-oriented Dialog System [13.117491508194242]
マルチターンで対話的な対話を通じて,ユーザがメディアコレクションを検索できるようにする強力なツールとして,コネクテッドメモリのためのダイアログを提案する。
新しいタスク指向のダイアログデータセットCOMETを使用し、シミュレーションされたパーソナルメモリグラフをベースとしたユーザ>アシスタントダイアログ(トータリング103k$発話)を含む。
COMETを分析し、意味のある進捗をベンチマークするために4つの主要なタスクを定式化し、最先端の言語モデルを強力なベースラインとして採用する。
論文 参考訳(メタデータ) (2022-11-15T19:31:57Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。