論文の概要: Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction
- arxiv url: http://arxiv.org/abs/2308.02723v1
- Date: Fri, 4 Aug 2023 21:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:08:42.513936
- Title: Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction
- Title(参考訳): 歌唱メロディ抽出における高調波感度と予測安定性の向上
- Authors: Keren Shao, Ke Chen, Taylor Berg-Kirkpatrick, Shlomo Dubnov
- Abstract要約: 本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
- 参考スコア(独自算出の注目度): 36.45127093978295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning research, many melody extraction models rely on redesigning
neural network architectures to improve performance. In this paper, we propose
an input feature modification and a training objective modification based on
two assumptions. First, harmonics in the spectrograms of audio data decay
rapidly along the frequency axis. To enhance the model's sensitivity on the
trailing harmonics, we modify the Combined Frequency and Periodicity (CFP)
representation using discrete z-transform. Second, the vocal and non-vocal
segments with extremely short duration are uncommon. To ensure a more stable
melody contour, we design a differentiable loss function that prevents the
model from predicting such segments. We apply these modifications to several
models, including MSNet, FTANet, and a newly introduced model, PianoNet,
modified from a piano transcription network. Our experimental results
demonstrate that the proposed modifications are empirically effective for
singing melody extraction.
- Abstract(参考訳): ディープラーニングの研究において、多くのメロディ抽出モデルは、パフォーマンスを改善するためにニューラルネットワークアーキテクチャの再設計に依存している。
本稿では,入力特徴の修正と2つの仮定に基づく学習目標の修正を提案する。
まず、周波数軸に沿ってオーディオデータのスペクトログラムの高調波が急速に減衰する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた結合周波数と周期(CFP)表現を修正した。
第二に、極端に短い声帯と非声帯は稀である。
より安定したメロディ輪郭を確保するため、モデルがそのようなセグメントを予測できないように、微分可能な損失関数を設計する。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
実験の結果,提案手法は旋律抽出に実験的に有効であることがわかった。
関連論文リスト
- Sine, Transient, Noise Neural Modeling of Piano Notes [0.0]
3つのサブモジュールはピアノ録音からコンポーネントを学び、ハーモニック、トランジェント、ノイズ信号を生成する。
特異点から、三弦の異なる鍵と畳み込みに基づくネットワークとの結合をエミュレートする。
その結果、モデルがターゲットの部分分布と一致し、スペクトルの上部のエネルギーがより多くの課題をもたらすことを予測した。
論文 参考訳(メタデータ) (2024-09-10T13:48:18Z) - Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models [7.928003786376716]
畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。
我々は、ピッチワイズLSTMを用いて、音符状態のシーケンスモデリングを改善する。
我々は,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:06:15Z) - Emotion-Conditioned Melody Harmonization with Hierarchical Variational
Autoencoder [11.635877697635449]
LSTMに基づく階層的変分自動エンコーダ(LHVAE)を提案する。
LHVAEは、グローバル音楽とローカル音楽の特性をモデル化するために、潜伏変数と感情条件を異なるレベルで組み込んでいる。
目的実験の結果,提案モデルが他のLSTMモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-06T14:28:57Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。