論文の概要: Multi-Task Self-Supervised Pre-Training for Music Classification
- arxiv url: http://arxiv.org/abs/2102.03229v1
- Date: Fri, 5 Feb 2021 15:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 12:49:59.557833
- Title: Multi-Task Self-Supervised Pre-Training for Music Classification
- Title(参考訳): 音楽分類のためのマルチタスク自己監督プリトレーニング
- Authors: Ho-Hsiang Wu, Chieh-Chi Kao, Qingming Tang, Ming Sun, Brian McFee,
Juan Pablo Bello, Chao Wang
- Abstract要約: 音楽エンコーダの事前学習に自己教師付きマルチタスク学習法を適用した。
本研究では、これらの設計選択が、下流の音楽分類タスクとどのように相互作用するかを検討する。
- 参考スコア(独自算出の注目度): 36.21650132145048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning is very data hungry, and supervised learning especially
requires massive labeled data to work well. Machine listening research often
suffers from limited labeled data problem, as human annotations are costly to
acquire, and annotations for audio are time consuming and less intuitive.
Besides, models learned from labeled dataset often embed biases specific to
that particular dataset. Therefore, unsupervised learning techniques become
popular approaches in solving machine listening problems. Particularly, a
self-supervised learning technique utilizing reconstructions of multiple
hand-crafted audio features has shown promising results when it is applied to
speech domain such as emotion recognition and automatic speech recognition
(ASR). In this paper, we apply self-supervised and multi-task learning methods
for pre-training music encoders, and explore various design choices including
encoder architectures, weighting mechanisms to combine losses from multiple
tasks, and worker selections of pretext tasks. We investigate how these design
choices interact with various downstream music classification tasks. We find
that using various music specific workers altogether with weighting mechanisms
to balance the losses during pre-training helps improve and generalize to the
downstream tasks.
- Abstract(参考訳): ディープラーニングは非常にデータに飢えており、教師付き学習には特に大量のラベル付きデータが必要になります。
機械リスニング研究は、人間のアノテーション取得にコストがかかり、音声に対するアノテーションは時間がかかり、直感的ではないため、ラベル付きデータの問題に苦しむことが多い。
さらに、ラベル付きデータセットから学んだモデルは、その特定のデータセット固有のバイアスを埋め込むことが多い。
したがって、教師なし学習技術は、機械リスニング問題を解決するための一般的なアプローチとなる。
特に、複数の手作り音声特徴の再構成を利用した自己教師あり学習手法は、感情認識や自動音声認識(asr)などの音声領域に適用すると有望な結果が得られる。
本稿では,音楽エンコーダの事前学習に自己教師とマルチタスク学習手法を適用し,エンコーダアーキテクチャ,複数タスクからの損失を組み合わせる重み付け機構,プリテキストタスクの作業者選択など,さまざまな設計選択について検討する。
これらのデザイン選択が下流の音楽分類課題とどのように相互作用するかを検討する。
プレトレーニング中の損失のバランスをとるための重み付け機構を備えた,さまざまな音楽固有の作業員が,ダウンストリームタスクの改善と一般化に役立ちます。
関連論文リスト
- An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Music Instrument Classification Reprogrammed [79.68916470119743]
プログラム」とは、事前学習されたモデルの入力と出力の両方を修正・マッピングすることで、もともと異なるタスクをターゲットにした、事前学習された深層・複雑なニューラルネットワークを利用する手法である。
本研究では,異なるタスクで学習した表現のパワーを効果的に活用できることを実証し,結果として得られた再プログラムシステムは,訓練パラメータのごく一部で,同等あるいはそれ以上の性能を持つシステムでも実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-11-15T18:26:01Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - A Study of Few-Shot Audio Classification [2.1989764549743476]
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
論文 参考訳(メタデータ) (2020-12-02T22:19:16Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。