論文の概要: Multiple F0 Estimation in Vocal Ensembles using Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2009.04172v1
- Date: Wed, 9 Sep 2020 09:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:25:53.532841
- Title: Multiple F0 Estimation in Vocal Ensembles using Convolutional Neural
Networks
- Title(参考訳): 畳み込みニューラルネットワークを用いた声帯の複数F0推定
- Authors: Helena Cuesta, Brian McFee, Emilia G\'omez
- Abstract要約: 本稿では、畳み込みニューラルネットワーク(CNN)を用いたポリフォニックとカペラの発声性能から複数のF0値の抽出について述べる。
入力信号のピッチサリエンス関数を生成するために,既存のアーキテクチャを構築した。
トレーニングのために、F0アノテーション付きボーカル四重奏団の複数トラックデータセットからなるデータセットを構築した。
- 参考スコア(独自算出の注目度): 7.088324036549911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the extraction of multiple F0 values from polyphonic and
a cappella vocal performances using convolutional neural networks (CNNs). We
address the major challenges of ensemble singing, i.e., all melodic sources are
vocals and singers sing in harmony. We build upon an existing architecture to
produce a pitch salience function of the input signal, where the harmonic
constant-Q transform (HCQT) and its associated phase differentials are used as
an input representation. The pitch salience function is subsequently
thresholded to obtain a multiple F0 estimation output. For training, we build a
dataset that comprises several multi-track datasets of vocal quartets with F0
annotations. This work proposes and evaluates a set of CNNs for this task in
diverse scenarios and data configurations, including recordings with additional
reverb. Our models outperform a state-of-the-art method intended for the same
music genre when evaluated with an increased F0 resolution, as well as a
general-purpose method for multi-F0 estimation. We conclude with a discussion
on future research directions.
- Abstract(参考訳): 本稿では、畳み込みニューラルネットワーク(CNN)を用いたポリフォニックおよびカペラ発声性能から複数のF0値の抽出について述べる。
我々はアンサンブル・シンガーの主な課題、すなわちメロディのソースはすべてボーカルであり、歌手は調和して歌う。
我々は、入力信号のピッチサリエンス関数を生成するために既存のアーキテクチャを構築し、高調波定数Q変換(HCQT)とその位相差を入力表現として利用する。
その後、ピッチサリエンス関数を閾値にして複数のf0推定出力を得る。
訓練のために,f0アノテーション付き声帯四重奏曲の複数トラックデータセットからなるデータセットを構築する。
この研究は、様々なシナリオやデータ構成におけるタスクのための一連のCNNを提案し、評価する。
提案手法は,F0の高解像度化による評価と,マルチF0推定のための汎用手法において,同じジャンルを対象とした最先端の手法よりも優れている。
我々は今後の研究の方向性に関する議論で締めくくる。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Musical Voice Separation as Link Prediction: Modeling a Musical
Perception Task as a Multi-Trajectory Tracking Problem [6.617487928813374]
本論文は,ポリフォニック音楽作品において,異なる相互作用する声,すなわちモノフォニック・メロディック・ストリームを分離する知覚的タスクを目標とする。
我々はこのタスクを、離散的な観測、すなわちピッチ時間空間における音符から、MTT(Multi-Trajectory Tracking)問題としてモデル化する。
提案手法では,音符毎に1つのノードを作成し,同じ音声/ストリームで連続している場合の2つの音符間のリンクを予測し,旋律的軌跡を分離することにより,楽譜からグラフを構築する。
論文 参考訳(メタデータ) (2023-04-28T13:48:00Z) - Extract fundamental frequency based on CNN combined with PYIN [5.837881923712393]
PYINは、トレーニングされたCNNモデルから抽出されたF0を補足して、これらの2つのアルゴリズムの利点を組み合わせる。
2つのヴァイオリンによって演奏される4つのピースを使用し、抽出されたF0曲線の平坦度に応じてモデルの性能を評価する。
論文 参考訳(メタデータ) (2022-08-17T15:34:54Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - HarmoF0: Logarithmic Scale Dilated Convolution For Pitch Estimation [7.5089093564620155]
本稿では,多重レート拡張因果畳み込み法(MRDC-Conv)を導入し,対数スケールスペクトログラムの高調波構造を効率的に捉える。
ピッチ推定においてMRDC-Convと他の拡張畳み込みを評価するために,完全畳み込みネットワークであるHarmoF0を提案する。
その結果、このモデルはDeepF0より優れ、3つのデータセットで最先端のパフォーマンスが得られ、同時に90%以上のパラメータが減少することがわかった。
論文 参考訳(メタデータ) (2022-05-02T16:45:20Z) - Pitch-Informed Instrument Assignment Using a Deep Convolutional Network
with Multiple Kernel Shapes [22.14133334414372]
本稿では,音階楽器の割り当てを行うための深層畳み込みニューラルネットワークを提案する。
7つの楽器クラスを用いたMusicNetデータセット実験により,本手法は平均Fスコア0.904を達成可能であることが示された。
論文 参考訳(メタデータ) (2021-07-28T19:48:09Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。