論文の概要: TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music
- arxiv url: http://arxiv.org/abs/2202.00951v1
- Date: Wed, 2 Feb 2022 10:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 20:09:31.838196
- Title: TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music
- Title(参考訳): TONet:ポリフォニック音楽からのメロディ抽出のためのトーンオクタベネットワーク
- Authors: Ke Chen, Shuai Yu, Cheng-i Wang, Wei Li, Taylor Berg-Kirkpatrick,
Shlomo Dubnov
- Abstract要約: TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
- 参考スコア(独自算出の注目度): 43.17623332544677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing melody extraction is an important problem in the field of music
information retrieval. Existing methods typically rely on frequency-domain
representations to estimate the sung frequencies. However, this design does not
lead to human-level performance in the perception of melody information for
both tone (pitch-class) and octave. In this paper, we propose TONet, a
plug-and-play model that improves both tone and octave perceptions by
leveraging a novel input representation and a novel network architecture.
First, we present an improved input representation, the Tone-CFP, that
explicitly groups harmonics via a rearrangement of frequency-bins. Second, we
introduce an encoder-decoder architecture that is designed to obtain a salience
feature map, a tone feature map, and an octave feature map. Third, we propose a
tone-octave fusion mechanism to improve the final salience feature map.
Experiments are done to verify the capability of TONet with various baseline
backbone models. Our results show that tone-octave fusion with Tone-CFP can
significantly improve the singing voice extraction performance across various
datasets -- with substantial gains in octave and tone accuracy.
- Abstract(参考訳): 音楽情報検索の分野では,歌唱メロディ抽出が重要な課題である。
既存の手法は通常、歌声の周波数を推定するために周波数領域表現に依存する。
しかし、この設計は、メロディ情報(ピッチクラス)とオクターブの両方の知覚において、人間レベルのパフォーマンスをもたらすものではない。
本稿では,新しい入力表現と新しいネットワークアーキテクチャを活用することで,トーンとオクターブの両方の知覚を改善するプラグイン・アンド・プレイモデルTONetを提案する。
まず,周波数ビンの再配置により高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
次に,サリアンス特徴マップ,トーン特徴マップ,オクターブ特徴マップを得るように設計されたエンコーダ・デコーダアーキテクチャを提案する。
第3に,最終塩分特徴マップを改善するためのトーン・オクターブ融合機構を提案する。
さまざまなベースラインバックボーンモデルでTONetの能力を検証する実験が行われている。
その結果、音素-cfpとのトーン-オクターブ融合により、さまざまなデータセットにおける歌声抽出性能が大幅に向上し、オクターブとトーン精度が大幅に向上した。
関連論文リスト
- Sine, Transient, Noise Neural Modeling of Piano Notes [0.0]
3つのサブモジュールはピアノ録音からコンポーネントを学び、ハーモニック、トランジェント、ノイズ信号を生成する。
特異点から、三弦の異なる鍵と畳み込みに基づくネットワークとの結合をエミュレートする。
その結果、モデルがターゲットの部分分布と一致し、スペクトルの上部のエネルギーがより多くの課題をもたらすことを予測した。
論文 参考訳(メタデータ) (2024-09-10T13:48:18Z) - Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文 参考訳(メタデータ) (2023-08-04T21:59:40Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Pitch-Informed Instrument Assignment Using a Deep Convolutional Network
with Multiple Kernel Shapes [22.14133334414372]
本稿では,音階楽器の割り当てを行うための深層畳み込みニューラルネットワークを提案する。
7つの楽器クラスを用いたMusicNetデータセット実験により,本手法は平均Fスコア0.904を達成可能であることが示された。
論文 参考訳(メタデータ) (2021-07-28T19:48:09Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。