論文の概要: Towards Proper Contrastive Self-supervised Learning Strategies For Music
Audio Representation
- arxiv url: http://arxiv.org/abs/2207.04471v1
- Date: Sun, 10 Jul 2022 14:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 06:10:11.238817
- Title: Towards Proper Contrastive Self-supervised Learning Strategies For Music
Audio Representation
- Title(参考訳): 音楽音響表現のためのコントラスト型自己教師型学習戦略
- Authors: Jeong Choi, Seongwon Jang, Hyunsouk Cho, Sehee Chung
- Abstract要約: 本研究では,異なるコントラスト型自己教師型学習手法から学習した音楽音声の表現について検討する。
これらの表現は、一般に音楽の聴覚特性に関する包括的情報を伝達することを示す。
- 参考スコア(独自算出の注目度): 5.964436882344729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The common research goal of self-supervised learning is to extract a general
representation which an arbitrary downstream task would benefit from. In this
work, we investigate music audio representation learned from different
contrastive self-supervised learning schemes and empirically evaluate the
embedded vectors on various music information retrieval (MIR) tasks where
different levels of the music perception are concerned. We analyze the results
to discuss the proper direction of contrastive learning strategies for
different MIR tasks. We show that these representations convey a comprehensive
information about the auditory characteristics of music in general, although
each of the self-supervision strategies has its own effectiveness in certain
aspect of information.
- Abstract(参考訳): 自己教師付き学習の一般的な研究目標は、任意の下流タスクが恩恵を受ける一般的な表現を抽出することである。
本研究では,異なるコントラスト的自己指導型学習手法から学習した音楽の音響表現について検討し,音楽知覚のレベルが異なる様々な音楽情報検索(MIR)タスクにおける埋め込みベクトルを実験的に評価する。
この結果を分析し、異なるMIRタスクに対するコントラスト学習戦略の適切な方向性について考察する。
これらの表現は概して音楽の聴覚特性に関する包括的情報を伝達するが、それぞれの自己監督戦略は情報の特定の側面において独自の効果を有する。
関連論文リスト
- Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z) - Understanding Self-Attention of Self-Supervised Audio Transformers [74.38550595045855]
自己教師型音声変換器(SAT)は、ASRのような多くの下流音声アプリケーションで大きな成功を収めるが、その動作方法はまだ広く検討されていない。
本研究では,SATにおけるアテンションメカニズムの解析のための複数の戦略を提案する。
論文 参考訳(メタデータ) (2020-06-05T07:23:03Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。