論文の概要: Utterance-level Sequential Modeling For Deep Gaussian Process Based
Speech Synthesis Using Simple Recurrent Unit
- arxiv url: http://arxiv.org/abs/2004.10823v1
- Date: Wed, 22 Apr 2020 19:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:58:03.900135
- Title: Utterance-level Sequential Modeling For Deep Gaussian Process Based
Speech Synthesis Using Simple Recurrent Unit
- Title(参考訳): 単純再帰単位を用いた深いガウス過程に基づく音声合成のための発話レベル逐次モデリング
- Authors: Tomoki Koriyama, Hiroshi Saruwatari
- Abstract要約: 本稿では,DGPが繰り返しアーキテクチャモデルを用いて発話レベルモデリングに適用可能であることを示す。
提案したモデルに対して単純な再帰ユニット(SRU)を採用し,再帰的アーキテクチャを実現する。
提案したSRU-DGPに基づく音声合成は、フィードフォワードDGPだけでなく、SRUと長短期記憶(LSTM)ベースのニューラルネットワークを自動調整する。
- 参考スコア(独自算出の注目度): 41.85906379846473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a deep Gaussian process (DGP) model with a recurrent
architecture for speech sequence modeling. DGP is a Bayesian deep model that
can be trained effectively with the consideration of model complexity and is a
kernel regression model that can have high expressibility. In the previous
studies, it was shown that the DGP-based speech synthesis outperformed neural
network-based one, in which both models used a feed-forward architecture. To
improve the naturalness of synthetic speech, in this paper, we show that DGP
can be applied to utterance-level modeling using recurrent architecture models.
We adopt a simple recurrent unit (SRU) for the proposed model to achieve a
recurrent architecture, in which we can execute fast speech parameter
generation by using the high parallelization nature of SRU. The objective and
subjective evaluation results show that the proposed SRU-DGP-based speech
synthesis outperforms not only feed-forward DGP but also automatically tuned
SRU- and long short-term memory (LSTM)-based neural networks.
- Abstract(参考訳): 本稿では,音声シーケンスモデリングのための繰り返しアーキテクチャを用いたディープガウス過程(DGP)モデルを提案する。
dgpはベイズ深層モデルであり、モデルの複雑さを考慮して効果的に訓練することができ、高い表現可能性を持つカーネル回帰モデルである。
従来の研究では、DGPに基づく音声合成は、両方のモデルがフィードフォワードアーキテクチャを使用したニューラルネットワークよりも優れていた。
本稿では、合成音声の自然性を改善するために、繰り返しアーキテクチャモデルを用いた発話レベルモデリングにDGPを適用することができることを示す。
本稿では,SRUの高並列化特性を用いて,高速な音声パラメータ生成を実現するため,提案モデルにSRU(Simple Recurrent Unit)を適用した。
目的および主観評価結果から,提案したSRU-DGPに基づく音声合成は,フィードフォワードDGPだけでなく,SRU-および長短期記憶(LSTM)ベースのニューラルネットワークを自動調整した。
関連論文リスト
- Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Toward an Over-parameterized Direct-Fit Model of Visual Perception [5.4823225815317125]
本稿では, 単純細胞と複雑細胞の並列結合機構と逐次結合機構の相違について述べる。
空間分割と合成に抽象化する新たな提案が提案されている。
我々は、$ell_infty$-optimizationに基づいて、動的プログラミング(DP)のような近似近傍探索を実現する方法を示す。
論文 参考訳(メタデータ) (2022-10-07T23:54:30Z) - Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文 参考訳(メタデータ) (2022-06-14T12:58:59Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Guided Sampling-based Evolutionary Deep Neural Network for Intelligent
Fault Diagnosis [8.92307560991779]
我々は、モデルアーキテクチャの進化を導くためにポリシー勾配を利用する進化的ディープニューラルネットワークの新しいフレームワークを提案してきた。
提案フレームワークの有効性を3つのデータセットで検証した。
論文 参考訳(メタデータ) (2021-11-12T18:59:45Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Self-Learning for Received Signal Strength Map Reconstruction with
Neural Architecture Search [63.39818029362661]
ニューラルアーキテクチャサーチ(NAS)と受信信号強度(RSS)マップ再構築のための自己学習に基づくモデルを提案する。
このアプローチは、まず最適なNNアーキテクチャを見つけ、与えられた(RSS)マップの地上実測値に対して同時に推論モデルを訓練する。
実験結果から,この第2モデルの信号予測は,非学習に基づく最先端技術や,アーキテクチャ探索を伴わないNNモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-05-17T12:19:22Z) - Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。
LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-22T11:50:06Z) - Learning of Discrete Graphical Models with Neural Networks [15.171938155576566]
グラフィカルモデル学習のためのニューラルネットベースのアルゴリズムNeurISEを紹介する。
NeurISEは、真のモデルのエネルギー関数が高次であるとき、GRISEのより良い代替品であると考えられている。
また、実モデルの全エネルギー関数に対するニューラルネット表現の学習に使用できるNeurISEの変種を示す。
論文 参考訳(メタデータ) (2020-06-21T23:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。