論文の概要: Peking Opera Synthesis via Duration Informed Attention Network
- arxiv url: http://arxiv.org/abs/2008.03029v1
- Date: Fri, 7 Aug 2020 08:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:49:16.429355
- Title: Peking Opera Synthesis via Duration Informed Attention Network
- Title(参考訳): 時間的インフォームドアテンションネットワークによる北京オペラ合成
- Authors: Yusong Wu, Shengchen Li, Chengzhu Yu, Heng Lu, Chao Weng, Liqiang
Zhang, Dong Yu
- Abstract要約: 北京オペラは200年ほど前から中国の芸能界でもっとも支配的な形式となっている。
北京オペラ歌手は通常、舞台上で即興と表現性を導入することで、非常に強い個人的スタイルを示す。
この矛盾は、楽譜から音声合成を歌う北京オペラにおいて大きな課題となっている。
- 参考スコア(独自算出の注目度): 40.68789349507319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Peking Opera has been the most dominant form of Chinese performing art since
around 200 years ago. A Peking Opera singer usually exhibits a very strong
personal style via introducing improvisation and expressiveness on stage which
leads the actual rhythm and pitch contour to deviate significantly from the
original music score. This inconsistency poses a great challenge in Peking
Opera singing voice synthesis from a music score. In this work, we propose to
deal with this issue and synthesize expressive Peking Opera singing from the
music score based on the Duration Informed Attention Network (DurIAN)
framework. To tackle the rhythm mismatch, Lagrange multiplier is used to find
the optimal output phoneme duration sequence with the constraint of the given
note duration from music score. As for the pitch contour mismatch, instead of
directly inferring from music score, we adopt a pseudo music score generated
from the real singing and feed it as input during training. The experiments
demonstrate that with the proposed system we can synthesize Peking Opera
singing voice with high-quality timbre, pitch and expressiveness.
- Abstract(参考訳): 北京オペラは200年ほど前から中国の芸能界でもっとも支配的な形式となっている。
北京のオペラ歌手は通常、即興と表現性を導入して非常に強い個人的なスタイルを示し、実際のリズムやピッチの輪郭を元の音楽譜から大きく逸脱させる。
この矛盾は、北京オペラの歌声合成において音楽のスコアから大きな課題となる。
本研究では,この課題に対処し,Duration Informed Attention Network (DurIAN) に基づく音楽スコアから表現的北京オペラ歌唱を合成することを提案する。
リズムミスマッチに取り組むために、楽譜から与えられた音符持続時間の制約を伴う最適な出力音素継続時間列を求めるためにラグランジュ乗算器を用いる。
ピッチパターンのミスマッチについては,楽譜から直接推定する代わりに,実際の歌声から生成された擬似楽譜を採用し,訓練中に入力として与える。
提案するシステムでは,高い音色,ピッチ,表現力を有する北京オペラの歌唱音声を合成できることを示す。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-07-15T14:36:13Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Deep Autotuner: a Pitch Correcting Network for Singing Performances [26.019582802302033]
独唱演奏の自動ピッチ補正のためのデータ駆動方式を提案する。
良いイントネーションのために選択された4,702人のアマチュアカラオケパフォーマンスのデータセットを用いてニューラルネットワークモデルをトレーニングする。
畳み込み層上にゲートリカレントユニットを配置したディープニューラルネットワークは,実世界の楽譜なしの歌唱ピッチ補正タスクにおいて,有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-12T01:33:56Z) - Synthesising Expressiveness in Peking Opera via Duration Informed
Attention Network [40.68789349507319]
表現的なオペラ歌唱の合成は通常、訓練データとして抽出されるピッチの輪郭を必要とする。
本稿では,演奏歌唱合成のためのピッチ輪郭の代わりに音符を用いる。
論文 参考訳(メタデータ) (2019-12-27T07:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。