論文の概要: Synthesising Expressiveness in Peking Opera via Duration Informed
Attention Network
- arxiv url: http://arxiv.org/abs/1912.12010v1
- Date: Fri, 27 Dec 2019 07:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 00:05:03.645073
- Title: Synthesising Expressiveness in Peking Opera via Duration Informed
Attention Network
- Title(参考訳): 時間的インフォームドアテンションネットワークによる北京オペラの表現性の合成
- Authors: Yusong Wu, Shengchen Li, Chengzhu Yu, Heng Lu, Chao Weng, Liqiang
Zhang, Dong Yu
- Abstract要約: 表現的なオペラ歌唱の合成は通常、訓練データとして抽出されるピッチの輪郭を必要とする。
本稿では,演奏歌唱合成のためのピッチ輪郭の代わりに音符を用いる。
- 参考スコア(独自算出の注目度): 40.68789349507319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a method that generates expressive singing voice of
Peking opera. The synthesis of expressive opera singing usually requires pitch
contours to be extracted as the training data, which relies on techniques and
is not able to be manually labeled. With the Duration Informed Attention
Network (DurIAN), this paper makes use of musical note instead of pitch
contours for expressive opera singing synthesis. The proposed method enables
human annotation being combined with automatic extracted features to be used as
training data thus the proposed method gives extra flexibility in data
collection for Peking opera singing synthesis. Comparing with the expressive
singing voice of Peking opera synthesised by pitch contour based system, the
proposed musical note based system produces comparable singing voice in Peking
opera with expressiveness in various aspects.
- Abstract(参考訳): 本稿では,北京オペラの歌声を表現的に生成する手法を提案する。
表現的なオペラ歌唱の合成は、通常、手動でラベル付けできない技術に依存する訓練データとして、ピッチの輪郭を抽出する必要がある。
本論文は,継続時間インフォームド・アテンション・ネットワーク(durian)を用いて,歌唱合成のためのピッチ輪郭の代わりに音符を用いる。
提案手法は,人間のアノテーションと自動抽出した特徴をトレーニングデータとして組み合わせることで,北京歌唱合成のためのデータ収集にさらなる柔軟性を与える。
ピッチ輪郭ベースシステムにより合成された北京オペラの表現力の高い歌声と比較し,提案する楽譜ベースのシステムは,様々な面において表現力のある北京オペラの歌声に匹敵する性能を持つ。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance [14.22941848955693]
MakeSingerは、音声合成のための半教師付き訓練方法である。
我々の新しい二重誘導機構は、逆拡散ステップに関するテキストとピッチのガイダンスを与える。
トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで,TTS話者の歌声を歌声なしで合成できることを実証した。
論文 参考訳(メタデータ) (2024-06-10T01:47:52Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled
and Synthetic Data [0.0]
本稿では,ピッチ抽出のための特殊な畳み込みニューラルネットワークを提案する。
提案手法は,合成データと自動ラベル付アカペラ歌唱音声を組み合わせることで,ロバストなトレーニング環境を構築する。
この研究は、音楽と音声の両方において、ピッチ抽出の強化の道を開くものである。
論文 参考訳(メタデータ) (2023-08-14T14:26:52Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Peking Opera Synthesis via Duration Informed Attention Network [40.68789349507319]
北京オペラは200年ほど前から中国の芸能界でもっとも支配的な形式となっている。
北京オペラ歌手は通常、舞台上で即興と表現性を導入することで、非常に強い個人的スタイルを示す。
この矛盾は、楽譜から音声合成を歌う北京オペラにおいて大きな課題となっている。
論文 参考訳(メタデータ) (2020-08-07T08:04:41Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。