論文の概要: Unified Mandarin TTS Front-end Based on Distilled BERT Model
- arxiv url: http://arxiv.org/abs/2012.15404v1
- Date: Thu, 31 Dec 2020 02:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:05:23.411207
- Title: Unified Mandarin TTS Front-end Based on Distilled BERT Model
- Title(参考訳): 蒸留BERTモデルに基づく統合マンダリンTSフロントエンド
- Authors: Yang Zhang, Liqun Deng, Yasheng Wang
- Abstract要約: TTSフロントエンドにおける2つの重要なタスクに対処するために,プレトレーニング言語モデル(PLM)に基づくモデルを提案する。
トレーニング済みの中国語BERTをテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。
TTSフロントエンドモジュール全体を軽量で統一された方法で実行することができ、モバイルデバイスへの展開により友好的です。
- 参考スコア(独自算出の注目度): 5.103126953298633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The front-end module in a typical Mandarin text-to-speech system (TTS) is
composed of a long pipeline of text processing components, which requires
extensive efforts to build and is prone to large accumulative model size and
cascade errors. In this paper, a pre-trained language model (PLM) based model
is proposed to simultaneously tackle the two most important tasks in TTS
front-end, i.e., prosodic structure prediction (PSP) and grapheme-to-phoneme
(G2P) conversion. We use a pre-trained Chinese BERT[1] as the text encoder and
employ multi-task learning technique to adapt it to the two TTS front-end
tasks. Then, the BERT encoder is distilled into a smaller model by employing a
knowledge distillation technique called TinyBERT[2], making the whole model
size 25% of that of benchmark pipeline models while maintaining competitive
performance on both tasks. With the proposed the methods, we are able to run
the whole TTS front-end module in a light and unified manner, which is more
friendly to deployment on mobile devices.
- Abstract(参考訳): 典型的なmandarin text-to-speech system(tts)のフロントエンドモジュールは、長いテキスト処理コンポーネントのパイプラインで構成されており、ビルドに多大な労力がかかり、大きな累積モデルサイズとカスケードエラーが発生しやすい。
本稿では,PSP(Prosodic Structure Prediction)とG2P(Grapheme-to-phoneme)変換という,TTSフロントエンドにおける2つの重要なタスクに同時に取り組むための事前学習言語モデルを提案する。
事前学習した中国語BERT[1]をテキストエンコーダとして使用し、マルチタスク学習技術を用いて2つのTSフロントエンドタスクに適応する。
次に、TinyBERT[2]と呼ばれる知識蒸留技術を用いて、BERTエンコーダをより小さなモデルに蒸留し、ベンチマークパイプラインモデルの25%のモデルサイズを両タスクの競争性能を維持しながら、より小さなモデルにする。
提案手法により,TTSフロントエンドモジュール全体を軽量かつ統一的に動作させることができる。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Leveraging Parameter-Efficient Transfer Learning for Multi-Lingual Text-to-Speech Adaptation [27.78435674869292]
異なる言語は異なる音声システムを持ち、その韻律的特徴が異なるため、テキスト音声モデルの開発は困難である。
本稿では,多言語音声合成のためのTTSアーキテクチャを用いて,アダプタやハイパーネットワークなどのパラメータ効率変換学習(PETL)手法を統合することを提案する。
論文 参考訳(メタデータ) (2024-06-25T03:50:54Z) - Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling [13.757256085713571]
本稿では,新たな2段階予測パイプラインであるTAP-FMを提案する。
具体的には,マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。
本フレームワークは,グローバル・ローカル・テキスト・オーディオ・セマンティクスと音響表現の両方を深く掘り下げる機能を示す。
論文 参考訳(メタデータ) (2024-04-14T08:56:19Z) - Generative Pretrained Structured Transformers: Unsupervised Syntactic Language Models at Scale [36.584680344291556]
原文のスクラッチから事前学習が可能な大規模教師なしSLM(Generative Pretrained Structured Transformers, GPST)を提案する。
GPSTは、ゴールドツリーやシーケンシャルトレーニングなど、以前のSLMの制限を回避している。
GPSTは、左から右への文法誘導において、既存の教師なしSLMを著しく上回る。
論文 参考訳(メタデータ) (2024-03-13T06:54:47Z) - Tuning Large language model for End-to-end Speech Translation [7.297914077124909]
本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。
MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
論文 参考訳(メタデータ) (2023-10-03T13:43:50Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。