論文の概要: Predicting User Intents and Musical Attributes from Music Discovery Conversations
- arxiv url: http://arxiv.org/abs/2411.12254v1
- Date: Tue, 19 Nov 2024 05:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:31.229121
- Title: Predicting User Intents and Musical Attributes from Music Discovery Conversations
- Title(参考訳): 音楽発見会話からのユーザインテントと音楽属性の予測
- Authors: Daeyong Kwon, SeungHeon Doh, Juhan Nam,
- Abstract要約: 音楽発見会話における意図的分類モデルについて検討する。
また,音楽的属性分類という,音楽的ニーズを分類するタスクも含んでいる。
提案手法はユーザ意図と音楽属性の分類においてF1スコアを大幅に改善する。
- 参考スコア(独自算出の注目度): 6.903890310699392
- License:
- Abstract: Intent classification is a text understanding task that identifies user needs from input text queries. While intent classification has been extensively studied in various domains, it has not received much attention in the music domain. In this paper, we investigate intent classification models for music discovery conversation, focusing on pre-trained language models. Rather than only predicting functional needs: intent classification, we also include a task for classifying musical needs: musical attribute classification. Additionally, we propose a method of concatenating previous chat history with just single-turn user queries in the input text, allowing the model to understand the overall conversation context better. Our proposed model significantly improves the F1 score for both user intent and musical attribute classification, and surpasses the zero-shot and few-shot performance of the pretrained Llama 3 model.
- Abstract(参考訳): 入力分類(Intent classification)は、入力されたテキストクエリからユーザニーズを特定するテキスト理解タスクである。
意図分類は諸藩で広く研究されているが、音楽分野ではあまり注目されていない。
本稿では,音楽発見会話における意図的分類モデルについて検討し,事前学習言語モデルに着目した。
機能的欲求の予測だけでなく,音楽的欲求の分類,音楽的属性の分類も含んでいる。
さらに,従来のチャット履歴を入力テキスト中の1ターンのユーザクエリと組み合わせることで,モデルが会話のコンテキスト全体をよりよく理解できるようにする方法を提案する。
提案モデルでは、ユーザ意図と音楽属性の分類の両方においてF1スコアを大幅に改善し、事前訓練されたLlama 3モデルのゼロショットおよび少数ショット性能を上回った。
関連論文リスト
- Forecasting Live Chat Intent from Browsing History [18.72786397560888]
顧客は、製品の詳細やリターンの要求など、さまざまな意図を持ったオンラインライブチャットエージェントに連絡を取る。
本稿では,ユーザ意図を閲覧履歴から予測し,それを2段階のアプローチで解決する問題を提案する。
論文 参考訳(メタデータ) (2024-08-07T01:50:59Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Representation based meta-learning for few-shot spoken intent
recognition [24.86701995011442]
本稿ではメタラーニングパラダイムを用いたタスク非依存表現を用いた音声意図分類手法を提案する。
我々は、一般的な表現に基づくメタ学習を利用して、発話のタスクに依存しない表現を構築し、予測に線形分類器を使用する。
新規クラスの5ショット(1ショット)の分類において、提案されたフレームワークは、Google Commandsデータセットで88.6%(76.3%)、Fluent Speech Commandsデータセットで78.5%(64.2%)の平均的な分類精度を提供する。
論文 参考訳(メタデータ) (2021-06-29T10:46:35Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Intent Mining from past conversations for conversational agent [1.9754522186574608]
ボットは、ラウンド・ザ・タイムのサポートと顧客エンゲージメントを高めるために、ますますデプロイされている。
商用ボット構築フレームワークの多くは、ユーザ入力を認識するためのインテントモデルの構築とトレーニングを必要とする標準的なアプローチに従っている。
我々は、不均衡なデータクラスタリングのための新しい密度ベースクラスタリングアルゴリズムITERDB-LabelSCANを導入した。
論文 参考訳(メタデータ) (2020-05-22T05:29:13Z) - Learning to Rank Intents in Voice Assistants [2.102846336724103]
本稿では,意図的ランキングタスクのための新しいエネルギーモデルを提案する。
提案手法は,誤差率を3.8%削減することで,既存の手法よりも優れていることを示す。
また,意図的ランキングタスクにおけるアルゴリズムのロバスト性を評価し,そのロバスト性について33.3%向上したことを示す。
論文 参考訳(メタデータ) (2020-04-30T21:51:26Z) - IART: Intent-aware Response Ranking with Transformers in
Information-seeking Conversation Systems [80.0781718687327]
我々は、情報探索会話におけるユーザ意図パターンを分析し、意図認識型ニューラルレスポンスランキングモデル「IART」を提案する。
IARTは、ユーザ意図モデリングと言語表現学習とTransformerアーキテクチャの統合の上に構築されている。
論文 参考訳(メタデータ) (2020-02-03T05:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。