論文の概要: Singing Voice Synthesis Based on a Musical Note Position-Aware Attention
Mechanism
- arxiv url: http://arxiv.org/abs/2212.13703v1
- Date: Wed, 28 Dec 2022 05:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 16:30:39.389675
- Title: Singing Voice Synthesis Based on a Musical Note Position-Aware Attention
Mechanism
- Title(参考訳): 音符位置認識注意機構に基づく歌声合成
- Authors: Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
- Abstract要約: 本稿では,歌唱音声合成のための音符位置認識機構を備えた新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
提案モデルはタイミングの自然性と頑健性の両方の観点から有効である。
- 参考スコア(独自算出の注目度): 17.797726722637634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel sequence-to-sequence (seq2seq) model with a
musical note position-aware attention mechanism for singing voice synthesis
(SVS). A seq2seq modeling approach that can simultaneously perform acoustic and
temporal modeling is attractive. However, due to the difficulty of the temporal
modeling of singing voices, many recent SVS systems with an
encoder-decoder-based model still rely on explicitly on duration information
generated by additional modules. Although some studies perform simultaneous
modeling using seq2seq models with an attention mechanism, they have
insufficient robustness against temporal modeling. The proposed attention
mechanism is designed to estimate the attention weights by considering the
rhythm given by the musical score. Furthermore, several techniques are also
introduced to improve the modeling performance of the singing voice.
Experimental results indicated that the proposed model is effective in terms of
both naturalness and robustness of timing.
- Abstract(参考訳): 本稿では,歌声合成(SVS)のための音符位置認識機構を備えた新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
音響及び時間的モデリングを同時に行うSeq2seqモデリングアプローチは魅力的である。
しかし、歌唱音声の時間的モデリングが難しいため、エンコーダデコーダベースのモデルを持つ最近の多くのSVSシステムは、追加モジュールによって生成される持続時間情報に明示的に依存している。
注意機構を持つseq2seqモデルを用いた同時モデリングを行う研究もあるが、時間的モデリングに対するロバスト性は不十分である。
提案するアテンションメカニズムは,楽譜のリズムを考慮したアテンション重み推定を行う。
また,歌声のモデル化性能を向上させるための手法もいくつか紹介されている。
実験結果から,提案モデルが自然性および時間的ロバスト性の両方において有効であることが示唆された。
関連論文リスト
- MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice
Enhancement [8.782080886602145]
歌声強調のための新しい時間周波数ニューラルネットワーク(MBTFNet)を提案する。
MBTFNetは、バックグラウンド音楽、ノイズ、さらにはボーカルを歌唱録音から削除する。
実験により,提案モデルがいくつかの最先端SEモデルとMSSモデルより有意に優れていることが示された。
論文 参考訳(メタデータ) (2023-10-06T16:44:47Z) - Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文 参考訳(メタデータ) (2023-08-04T21:59:40Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - FastPitchFormant: Source-filter based Decomposed Modeling for Speech
Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。
FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文 参考訳(メタデータ) (2021-06-29T07:06:42Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。