論文の概要: Supervised Chorus Detection for Popular Music Using Convolutional Neural
Network and Multi-task Learning
- arxiv url: http://arxiv.org/abs/2103.14253v1
- Date: Fri, 26 Mar 2021 04:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 21:35:17.787418
- Title: Supervised Chorus Detection for Popular Music Using Convolutional Neural
Network and Multi-task Learning
- Title(参考訳): 畳み込みニューラルネットワークとマルチタスク学習を用いたポピュラー音楽の教師付きコーラス検出
- Authors: Ju-Chiang Wang, Jordan B.L. Smith, Jitong Chen, Xuchen Song, Yuxuan
Wang
- Abstract要約: 本稿では,ポピュラー音楽のコーラスセグメントを検出するための新しい教師付きアプローチを提案する。
本稿では,2つの時間的アクティベーション曲線に同時に適合するマルチタスク学習目的の畳み込みニューラルネットワークを提案する。
また,合唱と境界予測を共同で考慮し,バイナリ出力を生成するポストプロセッシング手法を提案する。
- 参考スコア(独自算出の注目度): 10.160205869706965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel supervised approach to detecting the chorus
segments in popular music. Traditional approaches to this task are mostly
unsupervised, with pipelines designed to target some quality that is assumed to
define "chorusness," which usually means seeking the loudest or most frequently
repeated sections. We propose to use a convolutional neural network with a
multi-task learning objective, which simultaneously fits two temporal
activation curves: one indicating "chorusness" as a function of time, and the
other the location of the boundaries. We also propose a post-processing method
that jointly takes into account the chorus and boundary predictions to produce
binary output. In experiments using three datasets, we compare our system to a
set of public implementations of other segmentation and chorus-detection
algorithms, and find our approach performs significantly better.
- Abstract(参考訳): 本稿では,ポピュラー音楽のコーラスセグメントを検出するための教師付きアプローチを提案する。
このタスクに対する従来のアプローチはほとんど教師なしであり、パイプラインは"コーラスネス"(chorusness)を定義すると想定される品質をターゲットとするように設計されている。
本研究では,畳み込みニューラルネットワークを用いて,時間関数としての「コーラスネス」と境界位置の2つの時間活性化曲線を同時に適合させるマルチタスク学習目的の畳み込みニューラルネットワークを提案する。
また,合唱と境界予測を共同で考慮し,バイナリ出力を生成するポストプロセッシング手法を提案する。
3つのデータセットを用いた実験では、システムと他のセグメンテーションとコーラス検出アルゴリズムの公開実装のセットを比較し、我々のアプローチは大幅に改善された。
関連論文リスト
- Carnatic Raga Identification System using Rigorous Time-Delay Neural Network [0.0]
大規模な機械学習に基づくRaga識別は、カルナティック音楽の背後にある計算的側面において、いまだに非自明な問題である。
本稿では,離散フーリエ変換と三角フィルタを用いて音符のカスタムビンを生成するステップの組み合わせを用いて,入力音を解析する。
このプログラムの目的は、より広い範囲のオーディオクリップを、よりシュルーティス、ラガ、よりバックグラウンドノイズで効果的かつ効率的にラベル付けできるようにすることである。
論文 参考訳(メタデータ) (2024-05-25T01:31:58Z) - CoverHunter: Cover Song Identification with Refined Attention and
Alignments [19.173689175634106]
カバーソング識別(CSI)は、クエリトラックが与えられたアンカーの異なるバージョンで同じ音楽を見つけることに焦点を当てている。
本研究では,既存の検出方式の欠点を克服するCoverHunterという新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-06-15T10:34:20Z) - Improving Time Series Encoding with Noise-Aware Self-Supervised Learning and an Efficient Encoder [15.39384259348351]
本稿では,自然時系列におけるノイズ発生信号の存在を考慮し,一貫した表現学習を促進する革新的な学習戦略を提案する。
また,インセプションブロック内に拡張畳み込みを組み込んだエンコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-11T04:00:11Z) - A Multi-Task Deep Learning Approach for Sensor-based Human Activity
Recognition and Segmentation [4.987833356397567]
本稿では,この2つの課題を同時に解くために,新しいディープニューラルネットワークを提案する。
提案するネットワークは,選択的畳み込みを採用し,長時間ないし短時間の動作を分割するマルチスケールウィンドウを備えている。
提案手法は,アクティビティ認識とセグメンテーションの両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:34:28Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Detecting Generic Music Features with Single Layer Feedforward Network
using Unsupervised Hebbian Computation [3.8707695363745223]
著者らは、人気のあるオープンソース音楽コーパスから、そのような特徴に関する情報を抽出する。
彼らは同じデータセットを使用して、一層ニューラルネットワークに教師なしのヘビアン学習技術を適用する。
教師なしトレーニングアルゴリズムは、提案したニューラルネットワークを強化し、音楽特徴の検出を成功させるために90.36%の精度を達成する。
論文 参考訳(メタデータ) (2020-08-31T13:57:31Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Learning multiview 3D point cloud registration [74.39499501822682]
本稿では,エンドツーエンドで学習可能なマルチビュー3Dポイントクラウド登録アルゴリズムを提案する。
このアプローチは、エンドツーエンドのトレーニングが可能で、計算コストが小さく、最先端のマージンよりも優れています。
論文 参考訳(メタデータ) (2020-01-15T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。