論文の概要: Singing voice synthesis based on frame-level sequence-to-sequence models
considering vocal timing deviation
- arxiv url: http://arxiv.org/abs/2301.02262v1
- Date: Thu, 5 Jan 2023 19:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 00:24:57.970747
- Title: Singing voice synthesis based on frame-level sequence-to-sequence models
considering vocal timing deviation
- Title(参考訳): 発声タイミングの偏差を考慮したフレームレベルシーケンス・ツー・シーケンスモデルに基づく歌声合成
- Authors: Miku Nishihara, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and
Keiichi Tokuda
- Abstract要約: 発声タイミング偏差を考慮したフレームレベルのシーケンス・ツー・シーケンスモデルに基づく歌声合成(SVS)
SVSでは、実際の発声タイミングと音符開始タイミングの違いを考慮して、スコアで表される時間構造と歌唱のタイミングを同期させることが不可欠である。
- 参考スコア(独自算出の注目度): 15.185681242504467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes singing voice synthesis (SVS) based on frame-level
sequence-to-sequence models considering vocal timing deviation. In SVS, it is
essential to synchronize the timing of singing with temporal structures
represented by scores, taking into account that there are differences between
actual vocal timing and note start timing. In many SVS systems including our
previous work, phoneme-level score features are converted into frame-level ones
on the basis of phoneme boundaries obtained by external aligners to take into
account vocal timing deviations. Therefore, the sound quality is affected by
the aligner accuracy in this system. To alleviate this problem, we introduce an
attention mechanism with frame-level features. In the proposed system, the
attention mechanism absorbs alignment errors in phoneme boundaries.
Additionally, we evaluate the system with pseudo-phoneme-boundaries defined by
heuristic rules based on musical scores when there is no aligner. The
experimental results show the effectiveness of the proposed system.
- Abstract(参考訳): 本稿では,声のタイミング差を考慮したフレームレベルのシーケンス・ツー・シーケンスモデルに基づく歌唱音声合成(SVS)を提案する。
svsでは、実際の発声タイミングと音符開始タイミングに違いがあることを考慮して、歌唱タイミングとスコアで表される時間的構造を同期させることが不可欠である。
先行研究を含む多くのSVSシステムにおいて、外部整合器による音素境界に基づいて音素レベルスコアの特徴をフレームレベルスコアに変換し、発声タイミングのずれを考慮した。
したがって、このシステムでは、音質はライナー精度に影響される。
この問題を軽減するため,フレームレベルの特徴を有する注意機構を提案する。
提案方式では,注意機構は音素境界におけるアライメント誤差を吸収する。
さらに,コーディネータが存在しない場合の楽譜に基づいて,ヒューリスティックな規則で定義した擬音素境界を用いたシステムの評価を行った。
実験の結果,提案システムの有効性が示された。
関連論文リスト
- AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual
Voice Conversion [2.3443118032034396]
本稿では,サイクル構造とメル-スペクトログラム前処理を備えた,シンプルで堅牢なゼロショット音声変換システムを提案する。
我々のモデルは、主観的・客観的評価において、既存の最先端の成果よりも優れています。
論文 参考訳(メタデータ) (2023-10-10T11:50:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis [67.96138567288197]
本稿では,歌声合成フレームワークSinging-Tacotronを提案する。
提案フレームワークとTacotronの主な違いは、音声が楽譜の持続時間情報によって大きく制御できる点である。
論文 参考訳(メタデータ) (2022-02-16T07:35:17Z) - Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis [49.6007376399981]
本稿では,自己回帰的注意に基づく音声合成システムにおいて,音素レベルでの韻律制御手法を提案する。
提案手法は、F0と持続時間の音素レベル制御を可能とし、生成した音声の品質を維持する。
F0クラスタのセントロイドを音符に置き換えることで、モデルはスピーカーの範囲内で音符とオクターブを制御できる。
論文 参考訳(メタデータ) (2021-11-19T12:10:16Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。