論文の概要: The Effect of Spectrogram Reconstruction on Automatic Music
Transcription: An Alternative Approach to Improve Transcription Accuracy
- arxiv url: http://arxiv.org/abs/2010.09969v1
- Date: Tue, 20 Oct 2020 02:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 08:07:22.806112
- Title: The Effect of Spectrogram Reconstruction on Automatic Music
Transcription: An Alternative Approach to Improve Transcription Accuracy
- Title(参考訳): スペクトログラム再構成が自動音楽転写に及ぼす影響 : 書き起こし精度向上のための代替的アプローチ
- Authors: Kin Wai Cheuk, Yin-Jyun Luo, Emmanouil Benetos, Dorien Herremans
- Abstract要約: 本論文は、最先端の転写精度を達成することではなく、分光図再構成がATTモデルに与える影響について検討する。
私たちは、MAPS、MAESTRO、MusicNetの3つの異なるデータセットでモデルをトレーニングします。
本実験により,再建部を含まないモデルと比較した場合,再建部を付加することで,ノートレベルの転写精度が向上することが示された。
- 参考スコア(独自算出の注目度): 20.282908756947936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the state-of-the-art automatic music transcription (AMT) models break
down the main transcription task into sub-tasks such as onset prediction and
offset prediction and train them with onset and offset labels. These
predictions are then concatenated together and used as the input to train
another model with the pitch labels to obtain the final transcription. We
attempt to use only the pitch labels (together with spectrogram reconstruction
loss) and explore how far this model can go without introducing supervised
sub-tasks. In this paper, we do not aim at achieving state-of-the-art
transcription accuracy, instead, we explore the effect that spectrogram
reconstruction has on our AMT model. Our proposed model consists of two U-nets:
the first U-net transcribes the spectrogram into a posteriorgram, and a second
U-net transforms the posteriorgram back into a spectrogram. A reconstruction
loss is applied between the original spectrogram and the reconstructed
spectrogram to constrain the second U-net to focus only on reconstruction. We
train our model on three different datasets: MAPS, MAESTRO, and MusicNet. Our
experiments show that adding the reconstruction loss can generally improve the
note-level transcription accuracy when compared to the same model without the
reconstruction part. Moreover, it can also boost the frame-level precision to
be higher than the state-of-the-art models. The feature maps learned by our
U-net contain gridlike structures (not present in the baseline model) which
implies that with the presence of the reconstruction loss, the model is
probably trying to count along both the time and frequency axis, resulting in a
higher note-level transcription accuracy.
- Abstract(参考訳): 最先端の自動転写(AMT)モデルのほとんどは、メインの転写タスクを、オンセット予測やオフセット予測などのサブタスクに分解し、オンセットおよびオフセットラベルでトレーニングする。
これらの予測をまとめて入力として、ピッチラベルで別のモデルを訓練し、最終的な転写を得る。
我々は、スペクトル再構成損失を伴うピッチラベルのみを使用し、教師付きサブタスクを導入することなく、このモデルがどこまで進めるかを探索する。
本稿では,最先端の転写精度の実現を目標とせず,スペクトル再構成がATTモデルに与える影響について検討する。
提案するモデルは2つのu-netから成り,第1のu-netはスペクトログラムを後行グラフに書き起こし,第2のu-netは後行グラフをスペクトログラムに戻す。
元のスペクトログラムと再構成されたスペクトログラムの間に再構成損失を適用し、第2のu-netが復元のみに集中するように制約する。
私たちは、MAPS、MAESTRO、MusicNetの3つの異なるデータセットでモデルをトレーニングします。
本実験により,再建部を含まないモデルと比較した場合,再建部を付加することで,ノートレベルの転写精度が向上することが示された。
さらに、フレームレベルの精度を最先端モデルよりも高くすることもできる。
U-netが学習した特徴マップにはグリッド状構造(ベースラインモデルには存在しない)が含まれており、この構造は復元損失の存在下では、おそらく時間軸と周波数軸の両方に沿って数えようとしているため、ノートレベルの転写精度が高い。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Towards Efficient and Real-Time Piano Transcription Using Neural Autoregressive Models [7.928003786376716]
畳み込みリカレントニューラルネットワークのための新しいアーキテクチャを提案する。
我々は、ピッチワイズLSTMを用いて、音符状態のシーケンスモデリングを改善する。
我々は,提案モデルがMAESTROデータセットの音符精度の観点から,最先端モデルに匹敵することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:06:15Z) - Leveraging Graph Diffusion Models for Network Refinement Tasks [72.54590628084178]
本稿では,グラフ拡散に基づく新しいグラフ生成フレームワークSGDMを提案する。
我々のフレームワークはグラフ拡散モデルのスケーラビリティと忠実度を向上するだけでなく、逆プロセスを利用して新しい条件付き生成タスクを実行する。
論文 参考訳(メタデータ) (2023-11-29T18:02:29Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Networked Time Series Imputation via Position-aware Graph Enhanced
Variational Autoencoders [31.953958053709805]
我々は,変分オートエンコーダ(VAE)を利用して,ノード時系列の特徴とグラフ構造の両方に欠落する値を予測するPoGeVonという新しいモデルを設計する。
実験の結果,ベースライン上でのモデルの有効性が示された。
論文 参考訳(メタデータ) (2023-05-29T21:11:34Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating
Inverse Short-Time Fourier Transform [38.271530231451834]
メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。
典型的な畳み込みメル-スペクトログラムボコーダは、畳み込みニューラルネットワークを用いてこれらの問題を共同で暗黙的に解決する。
我々は,メルスペクトルボコーダの出力側層を,逆ショートタイムフーリエ変換に置き換えるiSTFTNetを提案する。
論文 参考訳(メタデータ) (2022-03-04T16:05:48Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文 参考訳(メタデータ) (2021-03-15T01:11:13Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。