論文の概要: Learning music audio representations via weak language supervision
- arxiv url: http://arxiv.org/abs/2112.04214v1
- Date: Wed, 8 Dec 2021 10:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:28:42.987331
- Title: Learning music audio representations via weak language supervision
- Title(参考訳): 弱言語による音楽音声表現の学習
- Authors: Ilaria Manco, Emmanouil Benetos, Elio Quinton, Gyorgy Fazekas
- Abstract要約: 我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
- 参考スコア(独自算出の注目度): 14.335950077921435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio representations for music information retrieval are typically learned
via supervised learning in a task-specific fashion. Although effective at
producing state-of-the-art results, this scheme lacks flexibility with respect
to the range of applications a model can have and requires extensively
annotated datasets. In this work, we pose the question of whether it may be
possible to exploit weakly aligned text as the only supervisory signal to learn
general-purpose music audio representations. To address this question, we
design a multimodal architecture for music and language pre-training (MuLaP)
optimised via a set of proxy tasks. Weak supervision is provided in the form of
noisy natural language descriptions conveying the overall musical content of
the track. After pre-training, we transfer the audio backbone of the model to a
set of music audio classification and regression tasks. We demonstrate the
usefulness of our approach by comparing the performance of audio
representations produced by the same audio backbone with different training
strategies and show that our pre-training method consistently achieves
comparable or higher scores on all tasks and datasets considered. Our
experiments also confirm that MuLaP effectively leverages audio-caption pairs
to learn representations that are competitive with audio-only and cross-modal
self-supervised methods in the literature.
- Abstract(参考訳): 音楽情報検索のための音声表現は通常、タスク固有の方法で教師付き学習によって学習される。
最先端の結果を生成するのに効果的であるが、このスキームはモデルが持つアプリケーションの範囲に関して柔軟性を欠き、広範囲に注釈付きデータセットを必要とする。
本研究は,音楽音声の汎用表現を学習する唯一の補助信号として,弱整列テキストを活用できるかどうかを問うものである。
この問題に対処するために、我々は、一連のプロキシタスクによって最適化された音楽および言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝えるノイズの多い自然言語記述の形で提供される。
事前トレーニング後、モデルのオーディオバックボーンを、音楽オーディオの分類と回帰タスクのセットに転送します。
本手法は,同じ音声バックボーンが生成する音声表現の性能を異なるトレーニング戦略と比較することにより,本手法の有用性を実証し,本手法が検討したすべてのタスクやデータセットにおいて,一貫して同等以上のスコアが得られることを示す。
また,本実験では,MuraPが音声のみの自己教師方式と競合する表現を学習するために,音声カプセルペアを効果的に活用していることを確認した。
関連論文リスト
- Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。