論文の概要: Deep Autotuner: a Pitch Correcting Network for Singing Performances
- arxiv url: http://arxiv.org/abs/2002.05511v1
- Date: Wed, 12 Feb 2020 01:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:57:42.774920
- Title: Deep Autotuner: a Pitch Correcting Network for Singing Performances
- Title(参考訳): deep autotuner:歌唱演奏のためのピッチ補正ネットワーク
- Authors: Sanna Wager, George Tzanetakis, Cheng-i Wang, Minje Kim
- Abstract要約: 独唱演奏の自動ピッチ補正のためのデータ駆動方式を提案する。
良いイントネーションのために選択された4,702人のアマチュアカラオケパフォーマンスのデータセットを用いてニューラルネットワークモデルをトレーニングする。
畳み込み層上にゲートリカレントユニットを配置したディープニューラルネットワークは,実世界の楽譜なしの歌唱ピッチ補正タスクにおいて,有望な性能を示す。
- 参考スコア(独自算出の注目度): 26.019582802302033
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We introduce a data-driven approach to automatic pitch correction of solo
singing performances. The proposed approach predicts note-wise pitch shifts
from the relationship between the respective spectrograms of the singing and
accompaniment. This approach differs from commercial systems, where vocal track
notes are usually shifted to be centered around pitches in a user-defined
score, or mapped to the closest pitch among the twelve equal-tempered scale
degrees. The proposed system treats pitch as a continuous value rather than
relying on a set of discretized notes found in musical scores, thus allowing
for improvisation and harmonization in the singing performance. We train our
neural network model using a dataset of 4,702 amateur karaoke performances
selected for good intonation. Our model is trained on both incorrect
intonation, for which it learns a correction, and intentional pitch variation,
which it learns to preserve. The proposed deep neural network with gated
recurrent units on top of convolutional layers shows promising performance on
the real-world score-free singing pitch correction task of autotuning.
- Abstract(参考訳): 独唱演奏の自動ピッチ補正のためのデータ駆動方式を提案する。
提案手法は,歌唱と伴奏のそれぞれのスペクトルとの関係から音韻のピッチシフトを予測する。
このアプローチは商業システムと異なり、通常、ボーカルトラックノートはユーザー定義スコアのピッチを中心にシフトされるか、または12等級の等温音階の中で最も近いピッチにマップされる。
提案システムでは,楽譜中の音符の集合に依存するのではなく,音符を連続値として扱うことにより,歌唱演奏における即興演奏と調和を実現する。
良いイントネーションのために選択された4,702人のアマチュアカラオケパフォーマンスのデータセットを用いてニューラルネットワークモデルをトレーニングする。
本モデルでは,修正学習を行う不正確なイントネーションと,保存学習を行う意図的なピッチ変動の両方をトレーニングする。
畳み込み層上にゲートリカレントユニットを有するディープニューラルネットワークは、自動チューニングの実際のスコアフリー歌唱ピッチ補正タスクにおいて有望な性能を示す。
関連論文リスト
- Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - Improved singing voice separation with chromagram-based pitch-aware
remixing [26.299721372221736]
高いピッチアライメントを持つ音楽セグメントを混合したクロマグラムベースのピッチ認識リミックスを提案する。
我々は、ピッチ認識リミックスによるトレーニングモデルにより、テスト信号-歪み比(SDR)が大幅に改善されることを実証した。
論文 参考訳(メタデータ) (2022-03-28T20:55:54Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。