Fugu-MT 論文翻訳(概要): Beyond Musical Descriptors: Extracting Preference-Bearing Intent in Music Queries

論文の概要: Beyond Musical Descriptors: Extracting Preference-Bearing Intent in Music Queries

arxiv url: http://arxiv.org/abs/2602.12301v1
Date: Wed, 11 Feb 2026 10:52:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-16 23:37:53.696415
Title: Beyond Musical Descriptors: Extracting Preference-Bearing Intent in Music Queries
Title（参考訳）: 音楽ディスクリプタを超えて:音楽クェリにおける嗜好に満ちたインテントを抽出する
Authors: Marion Baranes, Romain Hennequin, Elena V. Epure,
Abstract要約: Redditの音楽リクエスト2,291件の注釈付きコーパスであるMusicRecoIntentを紹介した。我々は,肯定的,否定的,参照的嗜好的役割を持つ7つのカテゴリにまたがる音楽記述子をラベル付けする。
参考スコア（独自算出の注目度）: 9.932656605847727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although annotated music descriptor datasets for user queries are increasingly common, few consider the user's intent behind these descriptors, which is essential for effectively meeting their needs. We introduce MusicRecoIntent, a manually annotated corpus of 2,291 Reddit music requests, labeling musical descriptors across seven categories with positive, negative, or referential preference-bearing roles. We then investigate how reliably large language models (LLMs) can extract these music descriptors, finding that they do capture explicit descriptors but struggle with context-dependent ones. This work can further serve as a benchmark for fine-grained modeling of user intent and for gaining insights into improving LLM-based music understanding systems.
Abstract（参考訳）: ユーザクエリのための注釈付き音楽ディスクリプタデータセットは、ますます一般的になっているが、これらのディスクリプタの背後にあるユーザの意図を考える人はほとんどいない。 MusicRecoIntentは2,291件のReddit音楽リクエストを手動でアノテートしたコーパスで、肯定的、否定的、参照的嗜好に満ちた7つのカテゴリにまたがる音楽記述子をラベル付けする。次に,言語モデル(LLM)がこれらの音楽記述子をどの程度確実に抽出できるかを調査し,明示的な記述子をキャプチャするが,文脈に依存しない記述子と競合することを確認した。この研究は、ユーザ意図のきめ細かいモデリングと、LLMに基づく音楽理解システムの改善に関する洞察を得るためのベンチマークとなる。

関連論文リスト

Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-29T11:10:57Z)
Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning [10.558648773612191]
本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
論文参考訳（メタデータ） (2025-05-29T09:50:07Z)
Predicting User Intents and Musical Attributes from Music Discovery Conversations [6.903890310699392]
音楽発見会話における意図的分類モデルについて検討する。また,音楽的属性分類という,音楽的ニーズを分類するタスクも含んでいる。提案手法はユーザ意図と音楽属性の分類においてF1スコアを大幅に改善する。
論文参考訳（メタデータ） (2024-11-19T05:58:22Z)
Harnessing High-Level Song Descriptors towards Natural Language-Based Music Recommendation [10.740852246735004]
言語モデル(LM)は、ユーザーが大規模なカタログをナビゲートするのを支援することで人気を集めている。ジャンル,ムード,リスニングコンテキストなどの記述子を用いたユーザ自然言語記述や項目に基づく楽曲の推薦におけるLMの有効性を評価した。その結果,LMは言語間の類似性,情報検索,より長い記述をより短い高レベルな音楽記述子にマッピングするために微調整されているため,性能が向上したことが明らかとなった。
論文参考訳（メタデータ） (2024-11-08T15:45:33Z)
SoundSignature: What Type of Music Do You Like? [0.0]
SoundSignatureは、ユーザーのお気に入りの曲を分析するためにカスタムのOpenAIアシスタントを統合する音楽アプリケーションである。このシステムには最先端の音楽情報検索(MIR)Pythonパッケージが組み込まれており、抽出された音響的・音楽的特徴と、アシスタントのアーティストやバンドに関する広範な知識を組み合わせている。
論文参考訳（メタデータ） (2024-10-04T12:40:45Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Explainability in Music Recommender Systems [69.0506502017444]
音楽レコメンダシステム(MRS)の文脈における説明可能性について論じる。 MRSは非常に複雑で、推奨精度に最適化されることが多い。本稿では、MSSに説明可能性コンポーネントを組み込む方法と、どのようなフォーム説明を提供するかを示す。
論文参考訳（メタデータ） (2022-01-25T18:32:11Z)
MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文参考訳（メタデータ） (2021-04-24T16:34:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。