論文の概要: Nana-HDR: A Non-attentive Non-autoregressive Hybrid Model for TTS
- arxiv url: http://arxiv.org/abs/2109.13673v1
- Date: Tue, 28 Sep 2021 12:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:39:04.125900
- Title: Nana-HDR: A Non-attentive Non-autoregressive Hybrid Model for TTS
- Title(参考訳): ナナHDR - TTSのための非係留非自己回帰ハイブリッドモデル
- Authors: Shilun Lin, Wenchao Su, Li Meng, Fenglong Xie, Xinhui Li, Li Lu
- Abstract要約: Nana-は、TransformerベースのDense-fuseエンコーダとTTS用のRNNベースのデコーダを備えた、新しい非注意非自己回帰モデルである。
ナナ-は2つのマンダリンコーパスで自然さと頑健さで競争力を発揮する。
- 参考スコア(独自算出の注目度): 6.042601679516077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Nana-HDR, a new non-attentive non-autoregressive model
with hybrid Transformer-based Dense-fuse encoder and RNN-based decoder for TTS.
It mainly consists of three parts: Firstly, a novel Dense-fuse encoder with
dense connections between basic Transformer blocks for coarse feature fusion
and a multi-head attention layer for fine feature fusion. Secondly, a
single-layer non-autoregressive RNN-based decoder. Thirdly, a duration
predictor instead of an attention model that connects the above hybrid encoder
and decoder. Experiments indicate that Nana-HDR gives full play to the
advantages of each component, such as strong text encoding ability of
Transformer-based encoder, stateful decoding without being bothered by exposure
bias and local information preference, and stable alignment provided by
duration predictor. Due to these advantages, Nana-HDR achieves competitive
performance in naturalness and robustness on two Mandarin corpora.
- Abstract(参考訳): 本稿では,TransformerをベースとしたDense-fuseエンコーダとRTNをベースとしたTS用デコーダを備えた非係留非自己回帰モデルであるNana-HDRを提案する。
第一に、粗い特徴融合のための基本トランスフォーマーブロックと細かな特徴融合のためのマルチヘッドアテンション層の間に密接な接続を持つ新しいDense-fuseエンコーダである。
次に、単層非自己回帰RNNベースのデコーダ。
第3に、上記のハイブリッドエンコーダとデコーダを接続するアテンションモデルの代わりに、時間予測器。
実験の結果,Nana-HDRはトランスフォーマーベースのエンコーダの強いテキスト符号化能力,露光バイアスや局所情報優先に悩まされることなくステートフルな復号化,時間予測器によって提供される安定したアライメントなど,各コンポーネントの利点をフルに活用できることがわかった。
これらの利点により、Nana-HDRは2つのマンダリンコーパスの自然性と堅牢性において競争力を発揮する。
関連論文リスト
- On the Design and Performance of Machine Learning Based Error Correcting Decoders [3.8289109929360245]
まず, 単一ラベル型ニューラルネットワーク (SLNN) とマルチラベル型ニューラルネットワーク (MLNN) のデコーダについて検討した。
次に、エラー訂正符号変換器(ECCT)とクロスアテンションメッセージパッシング変換器(CrossMPT)という、2つのトランスフォーマーベースのデコーダに注目します。
論文 参考訳(メタデータ) (2024-10-21T11:23:23Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - 3D-Aware Encoding for Style-based Neural Radiance Fields [50.118687869198716]
我々は、入力画像をNeRFジェネレータの潜時空間に投影する反転関数を学び、潜時符号に基づいて原画像の新しいビューを合成する。
2次元生成モデルのGANインバージョンと比較して、NeRFインバージョンは、1)入力画像の同一性を維持するだけでなく、2)生成した新規なビューにおいて3D一貫性を確保する必要がある。
スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。
論文 参考訳(メタデータ) (2022-11-12T06:14:12Z) - ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers
for Streaming Speech Recognition [14.384132377946154]
ローカルおよびグローバルなコンテキストエンコーダからなる新しい畳み込みコンテキストを持つ新しいストリーミングASRモデルであるConvRNN-Tを導入する。
ConvRNN-T は RNN-T, Conformer および ContextNet の音声および室内データより優れることを示す。
ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。
論文 参考訳(メタデータ) (2022-09-29T15:33:41Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Latent Code-Based Fusion: A Volterra Neural Network Approach [21.25021807184103]
最近導入されたVolterra Neural Networks(VNN)を用いた深層構造エンコーダを提案する。
提案手法は,cnnベースのオートエンコーダに対して,より頑健な分類性能を持つサンプル複雑性を示す。
論文 参考訳(メタデータ) (2021-04-10T18:29:01Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Multi-Objective DNN-based Precoder for MIMO Communications [24.232286402470535]
本稿では,2ユーザマルチインプット多重出力(MIMO)ネットワークのための統合ディープニューラルネットワーク(DNN)ベースのプリコーダを提案する。
提案したプリコーダは、最適に近い性能を保ちながら、1桁以上の計算複雑性を低減させる。
論文 参考訳(メタデータ) (2020-07-06T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。