Fugu-MT 論文翻訳(概要): Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy Loss

論文の概要: Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy Loss

arxiv url: http://arxiv.org/abs/2010.12024v2
Date: Fri, 26 Feb 2021 16:33:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 08:43:51.131596
Title: Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy Loss
Title（参考訳）: 知覚エントロピー損失を伴うシーケンスからシーケンスへの歌声合成
Authors: Jiatong Shi, Shuai Guo, Nan Huo, Yuekai Zhang, Qin Jin
Abstract要約: 本稿では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。 1時間のオープンソース歌唱音声データベースを用いて,PE損失が各種主流系列列列モデルに与える影響について検討する。
参考スコア（独自算出の注目度）: 49.62291237343537
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The neural network (NN) based singing voice synthesis (SVS) systems require sufficient data to train well and are prone to over-fitting due to data scarcity. However, we often encounter data limitation problem in building SVS systems because of high data acquisition and annotation costs. In this work, we propose a Perceptual Entropy (PE) loss derived from a psycho-acoustic hearing model to regularize the network. With a one-hour open-source singing voice database, we explore the impact of the PE loss on various mainstream sequence-to-sequence models, including the RNN-based, transformer-based, and conformer-based models. Our experiments show that the PE loss can mitigate the over-fitting problem and significantly improve the synthesized singing quality reflected in objective and subjective evaluations.
Abstract（参考訳）: ニューラルネットワーク(NN)ベースの歌声合成(SVS)システムは、トレーニングに十分なデータを必要とし、データの不足により過度に適合する傾向がある。しかし,データ取得やアノテーションのコストが高いため,SVSシステム構築時にしばしばデータ制限問題が発生する。本研究では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。オープンソースの歌唱音声データベースを用いて, PE損失がRNNベース, トランスフォーマーベース, コンフォーマベースモデルなど, 様々な主流シーケンス・ツー・シーケンスモデルに与える影響について検討する。本実験では,pe損失が過剰フィッティング問題を緩和し,客観評価および主観評価に反映される合成歌唱品質を著しく改善することを示す。

関連論文リスト

Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。 noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。 NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文参考訳（メタデータ） (2025-04-04T09:27:19Z)
Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement [54.51467153859695]
本稿では、下流タスクのための音声データ、パーソナライズされた音声強調(PSE)を強化するために、ゼロショット音声合成(TTS)システムを要求する新しい課題を提案する。ゼロショットTSモデルによって生成された拡張データの質がPSEモデルの性能にどのように影響するかを検討することを目的とする。
論文参考訳（メタデータ） (2025-01-23T04:27:37Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Score-based Generative Priors Guided Model-driven Network for MRI Reconstruction [14.53268880380804]
そこで本研究では,モデル駆動型ネットワークトレーニングの先駆的な先駆的手法として,ナイーブなSMLDサンプルが用いられる新しいワークフローを提案する。まず,予備指導画像(PGI)としてサンプルを生成するために,事前学習スコアネットワークを採用した。第2のステップでは,PGIからアーティファクトやノイズを粗く除去するデノナイジングモジュール(DM)を設計した。第3に、より詳細な詳細を復元するために、識別されたPGIによって誘導されるモデル駆動ネットワークを設計した。
論文参考訳（メタデータ） (2024-05-05T14:56:34Z)
Hyperspectral Image Denoising via Self-Modulating Convolutional Neural Networks [15.700048595212051]
相関スペクトルと空間情報を利用した自己変調畳み込みニューラルネットワークを提案する。モデルの中心には新しいブロックがあり、隣り合うスペクトルデータに基づいて、ネットワークが適応的に特徴を変換することができる。合成データと実データの両方の実験解析により,提案したSM-CNNは,他の最先端HSI復調法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-09-15T06:57:43Z)
DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation [12.734839065028547]
本稿では、残差畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づく、DeepVQEと呼ばれるリアルタイムのクロスアテンションディープモデルを提案する。モデルの各コンポーネントのコントリビューションを分析して、全体的なパフォーマンスを実現する。 ICASSP 2023 Acoustic Echo Challenge とICASSP 2023 Deep Noise Suppression Challenge テストセットの非個人化トラックにおけるDeepVQEの最先端性能は、単一のモデルが優れたパフォーマンスで複数のタスクを処理可能であることを示している。
論文参考訳（メタデータ） (2023-06-05T18:37:05Z)
Deep learning for full-field ultrasonic characterization [7.120879473925905]
本研究では、最近の機械学習の進歩を活用して、物理に基づくデータ分析プラットフォームを構築する。直接反転と物理インフォームドニューラルネットワーク(PINN)の2つの論理について検討した。
論文参考訳（メタデータ） (2023-01-06T05:01:05Z)
STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文参考訳（メタデータ） (2022-06-09T09:49:04Z)
A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-17T08:26:25Z)
DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文参考訳（メタデータ） (2021-05-06T05:21:42Z)
PRVNet: A Novel Partially-Regularized Variational Autoencoders for Massive MIMO CSI Feedback [15.972209500908642]
ユーザ装置(UE)は、多重出力多重出力周波数分割二重化(MIMO-FDD)システムにおいて、ダウンリンクチャネル状態情報(CSI)を基地局に送信し、リンク状況を報告する。本稿では,変分オートエンコーダ(VAE)にインスパイアされたニューラルネットワークアーキテクチャであるPRVNetを紹介し,基地局に送信する前にCSI行列を圧縮する。
論文参考訳（メタデータ） (2020-11-09T04:07:45Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。