論文の概要: Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning
- arxiv url: http://arxiv.org/abs/2505.23298v1
- Date: Thu, 29 May 2025 09:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.798645
- Title: Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning
- Title(参考訳): マルチモーダル音楽表現学習のためのセマンティック空間とユーザ嗜好空間のギャップを埋める
- Authors: Xiaofeng Pan, Jing Chen, Haitong Zhang, Menglin Xing, Jiayi Wei, Xuefeng Mu, Zhongqian Xie,
- Abstract要約: 本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。
拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
- 参考スコア(独自算出の注目度): 10.558648773612191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works of music representation learning mainly focus on learning acoustic music representations with unlabeled audios or further attempt to acquire multi-modal music representations with scarce annotated audio-text pairs. They either ignore the language semantics or rely on labeled audio datasets that are difficult and expensive to create. Moreover, merely modeling semantic space usually fails to achieve satisfactory performance on music recommendation tasks since the user preference space is ignored. In this paper, we propose a novel Hierarchical Two-stage Contrastive Learning (HTCL) method that models similarity from the semantic perspective to the user perspective hierarchically to learn a comprehensive music representation bridging the gap between semantic and user preference spaces. We devise a scalable audio encoder and leverage a pre-trained BERT model as the text encoder to learn audio-text semantics via large-scale contrastive pre-training. Further, we explore a simple yet effective way to exploit interaction data from our online music platform to adapt the semantic space to user preference space via contrastive fine-tuning, which differs from previous works that follow the idea of collaborative filtering. As a result, we obtain a powerful audio encoder that not only distills language semantics from the text encoder but also models similarity in user preference space with the integrity of semantic space preserved. Experimental results on both music semantic and recommendation tasks confirm the effectiveness of our method.
- Abstract(参考訳): 音楽表現学習の最近の研究は、未ラベル音声による音響音楽表現の学習や、注釈付き音声テキストペアの少ないマルチモーダル音楽表現の獲得に重点を置いている。
言語セマンティクスを無視したり、ラベル付きオーディオデータセットに依存して、作成が難しくてコストがかかる。
さらに、単に意味空間をモデル化するだけでは、ユーザの好み空間が無視されるため、音楽レコメンデーションタスクにおいて満足なパフォーマンスを達成することができない。
本稿では,意味的視点からユーザ視点への類似性をモデル化し,意味的空間とユーザの嗜好空間のギャップを埋める包括的音楽表現を学習する,階層的二段階比較学習(HTCL)手法を提案する。
拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
さらに、我々のオンライン音楽プラットフォームからのインタラクションデータを利用して、コントラッシブな微調整により、セマンティック空間をユーザ嗜好空間に適応する簡単な方法を模索する。
その結果、テキストエンコーダから言語意味を蒸留するだけでなく、ユーザ好み空間における類似性をセマンティック空間の整合性をモデル化する強力なオーディオエンコーダが得られた。
音楽のセマンティクスとレコメンデーションの両タスクの実験結果から,本手法の有効性が確認された。
関連論文リスト
- Semantics-Aware Human Motion Generation from Audio Instructions [25.565742045932236]
本稿では,音声のセマンティクスに適合した動作を生成するための条件付け入力として音声信号を使用する新しいタスクについて検討する。
本稿では,メモリ検索型アテンションモジュールによって強化されたマスク付き生成変換器を用いて,スパースおよび長大な音声入力を処理するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T14:16:27Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - ALCAP: Alignment-Augmented Music Captioner [34.85003676798762]
コントラスト学習により,音声と歌詞のマルチモーダルアライメントを学習する手法を提案する。
これは、音声と歌詞のシナジーを認識し、強調するだけでなく、モデルがより深いモーダルなコヒーレンスを達成するための道を開く。
論文 参考訳(メタデータ) (2022-12-21T10:20:54Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。