論文の概要: Triple M: A Practical Neural Text-to-speech System With Multi-guidance
Attention And Multi-band Multi-time Lpcnet
- arxiv url: http://arxiv.org/abs/2102.00247v1
- Date: Sat, 30 Jan 2021 15:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:24:51.369984
- Title: Triple M: A Practical Neural Text-to-speech System With Multi-guidance
Attention And Multi-band Multi-time Lpcnet
- Title(参考訳): Triple M:マルチガイダンス注意とマルチバンドマルチタイムLpcnetを備えた実用的なニューラルテキスト・トゥ・スピーカシステム
- Authors: Shilun Lin, Xinhui Li, Li Lu
- Abstract要約: 本稿では,マルチガイダンスアテンションとマルチバンドマルチタイムLPCNetを備えたSeq2seqモデルからなる,Triple Mという実用的なニューラルテキスト音声合成システムを提案する。
前者は、異なる注意機構のアライメント結果を用いて、基本的な注意機構の学習を誘導し、推論中の基本的な注意機構のみを保持する。
後者はマルチバンド戦略とマルチタイム戦略を組み合わせることで、LPCNetの計算複雑性を低減する。
- 参考スコア(独自算出の注目度): 4.552464397842643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the sequence-to-sequence network with attention mechanism and neural
vocoder has made great progress in the quality of speech synthesis, there are
still some problems to be solved in large-scale real-time applications. For
example, to avoid long sentence alignment failure while maintaining rich
prosody, and to reduce the computational overhead while ensuring perceptual
quality. In order to address these issues, we propose a practical neural
text-to-speech system, named Triple M, consisting of a seq2seq model with
multi-guidance attention and a multi-band multi-time LPCNet. The former uses
alignment results of different attention mechanisms to guide the learning of
the basic attention mechanism, and only retains the basic attention mechanism
during inference. This approach can improve the performance of the
text-to-feature module by absorbing the advantages of all guidance attention
methods without modifying the basic inference architecture. The latter reduces
the computational complexity of LPCNet through combining multi-band and
multi-time strategies. The multi-band strategy enables the LPCNet to generate
sub-band signals in each inference. By predicting the sub-band signals of
adjacent time in one forward operation, the multi-time strategy further
decreases the number of inferences required. Due to the multi-band and
multi-time strategy, the vocoder speed is increased by 2.75x on a single CPU
and the MOS (mean opinion score) degradation is slight.
- Abstract(参考訳): 注意メカニズムとニューラルボコーダを備えたシーケンシャル・トゥ・シークエンスネットワークは、音声合成の品質に大きな進歩を遂げていますが、大規模なリアルタイムアプリケーションでは解決すべき問題がまだいくつかあります。
例えば、リッチな韻律を維持しながら長文アライメントの失敗を回避し、知覚品質を確保しつつ計算オーバーヘッドを低減する。
そこで本研究では,マルチガイダンスに注目した seq2seq モデルとマルチバンドマルチタイム LPCNet からなる,実用的ニューラルテキスト・トゥ・スピーカシステム Triple M を提案する。
前者は、異なる注意機構のアライメント結果を用いて、基本的な注意機構の学習を誘導し、推論中の基本的な注意機構のみを保持する。
このアプローチは、基本的な推論アーキテクチャを変更することなく、すべてのガイダンスアテンションメソッドの利点を吸収することにより、text-to-featureモジュールのパフォーマンスを向上させることができる。
後者はマルチバンド戦略とマルチタイム戦略を組み合わせることで、LPCNetの計算複雑性を低減する。
マルチバンド戦略により、LPCNetは各推論でサブバンド信号を生成することができる。
1回のフォワード動作で隣接時間のサブバンド信号を予測することにより、マルチタイム戦略はさらに必要な推論回数を減少させる。
マルチバンドおよびマルチタイム戦略により、ボコーダの速度は単一のCPUで2.75倍に向上し、MOS(平均オピニオンスコア)の劣化はわずかである。
関連論文リスト
- Multi-task Photonic Reservoir Computing: Wavelength Division Multiplexing for Parallel Computing with a Silicon Microring Resonator [0.0]
単一フォトニックチップで4つの独立したタスクを同時に解くために、時間と波長分割多重化(WDM)を用いることを数値的に示す。
システムのフットプリントは、研究されたニューラルネットワークスキームのニューロンとして機能するノードの時間分割多重化を用いて削減される。
論文 参考訳(メタデータ) (2024-07-30T20:54:07Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Deep Reinforcement Learning for Uplink Scheduling in NOMA-URLLC Networks [7.182684187774442]
本稿では,無線ネットワークにおけるURLLC(Ultra Reliable Low Communications)の問題に対処する。
本稿では,厳密な期限を含む非直交多重アクセス(NOMA)アップリンクURLLCスケジューリング問題を解くために,DRL(Deep Reinforcement Learning)スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-28T12:18:02Z) - Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement [16.701596804113553]
我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-15T08:48:19Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - ZoPE: A Fast Optimizer for ReLU Networks with Low-Dimensional Inputs [30.34898838361206]
低次元入力を持つフィードフォワードReLUネットワークの出力に対する最適化問題を解くZoPEアルゴリズムを提案する。
我々はZoPEを用いて、ACAS Xuニューラルネットワーク検証ベンチマークのプロパティ1における25倍の高速化と、一連の線形最適化問題に対する85倍の高速化を観察した。
論文 参考訳(メタデータ) (2021-06-09T18:36:41Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。