論文の概要: A Unified Transformer-based Framework for Duplex Text Normalization
- arxiv url: http://arxiv.org/abs/2108.09889v1
- Date: Mon, 23 Aug 2021 01:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:51:46.925548
- Title: A Unified Transformer-based Framework for Duplex Text Normalization
- Title(参考訳): 二重テキスト正規化のための統一トランスフォーマーベースフレームワーク
- Authors: Tuan Manh Lai, Yang Zhang, Evelina Bakhturina, Boris Ginsburg, Heng Ji
- Abstract要約: テキスト正規化(TN)と逆テキスト正規化(ITN)は、音声合成と自動音声認識において必要不可欠な前処理および後処理ステップである。
本稿では,TNとITNを同時に処理できる単一ニューラルデュプレックスシステムを構築するための統一的なフレームワークを提案する。
我々のシステムは、英語とロシア語のGoogle TNデータセットで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 33.90810154067128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text normalization (TN) and inverse text normalization (ITN) are essential
preprocessing and postprocessing steps for text-to-speech synthesis and
automatic speech recognition, respectively. Many methods have been proposed for
either TN or ITN, ranging from weighted finite-state transducers to neural
networks. Despite their impressive performance, these methods aim to tackle
only one of the two tasks but not both. As a result, in a complete spoken
dialog system, two separate models for TN and ITN need to be built. This
heterogeneity increases the technical complexity of the system, which in turn
increases the cost of maintenance in a production setting. Motivated by this
observation, we propose a unified framework for building a single neural duplex
system that can simultaneously handle TN and ITN. Combined with a simple but
effective data augmentation method, our systems achieve state-of-the-art
results on the Google TN dataset for English and Russian. They can also reach
over 95% sentence-level accuracy on an internal English TN dataset without any
additional fine-tuning. In addition, we also create a cleaned dataset from the
Spoken Wikipedia Corpora for German and report the performance of our systems
on the dataset. Overall, experimental results demonstrate the proposed duplex
text normalization framework is highly effective and applicable to a range of
domains and languages
- Abstract(参考訳): テキスト正規化(TN)と逆テキスト正規化(ITN)はそれぞれ、テキスト音声合成と自動音声認識に欠かせない前処理と後処理のステップである。
重み付き有限状態トランスデューサからニューラルネットワークまで、多くの方法がTNまたはITNに提案されている。
優れたパフォーマンスにもかかわらず、これらの手法は2つのタスクのうち1つだけに取り組むことを目的としており、両方ではない。
その結果、完全な音声対話システムでは、TNとITNの2つの別々のモデルを構築する必要がある。
この不均一性はシステムの技術的な複雑さを増加させ、プロダクション環境でのメンテナンスコストを増加させる。
そこで本研究では,TNとITNを同時に処理可能な単一神経二重系構築のための統合フレームワークを提案する。
簡単なデータ拡張手法と組み合わせて,Google TNデータセットによる英語とロシア語の最先端結果を得る。
また、追加の微調整なしで、内部の英語TNデータセット上で95%以上の文レベルの精度に達することができる。
また、ドイツ語のスポケンウィキペディアコーパスからクリーンなデータセットを作成し、データセット上でのシステムのパフォーマンスを報告します。
全体として,提案する二重化テキスト正規化フレームワークは非常に効果的であり,様々なドメインや言語に適用可能であることを実験的に実証する。
関連論文リスト
- Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。
このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T10:33:03Z) - Improving Data Driven Inverse Text Normalization using Data Augmentation [14.820077884045645]
逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。
本稿では、ドメイン外のテキストデータからリッチな音声による数値ペアを効果的に生成するデータ拡張手法を提案する。
我々は、データ拡張技術を用いてトレーニングしたITNモデルが、ドメイン内データのみを用いてトレーニングしたITNモデルより一貫して優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-07-20T06:07:26Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Proteno: Text Normalization with Limited Data for Fast Deployment in
Text to Speech Systems [15.401574286479546]
新しい言語上でのテキスト音声(TTS)のテキスト正規化(TN)は困難である。
そこで本研究では,複数の言語で使用するデータのサイズを3%未満に抑えながら,複数の言語に対応可能な新しいアーキテクチャを提案する。
スペイン語とタミル語でTN for TTSの最初の成果を公開し、また、アプローチのパフォーマンスが以前の英語での作業に匹敵することを示した。
論文 参考訳(メタデータ) (2021-04-15T21:14:28Z) - Neural Inverse Text Normalization [11.240669509034298]
逆テキスト正規化のための効率的かつ堅牢なニューラルソリューションを提案する。
言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。
プリトレーニングと融合したトランスベースモデルは、複数のデータセットで一貫して低いwerを達成する。
論文 参考訳(メタデータ) (2021-02-12T07:53:53Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity [3.8673630752805432]
本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。
我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。
我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2020-04-08T11:16:53Z) - Few-shot Natural Language Generation for Task-Oriented Dialog [113.07438787659859]
FewShotWozは,タスク指向対話システムにおける数ショットの学習設定をシミュレートする最初の NLG ベンチマークである。
我々は, SC-GPTモデルを開発し, その制御可能な生成能力を得るために, 注釈付きNLGコーパスの大規模なセットで事前学習を行った。
FewShotWozとMulti-Domain-WOZデータセットの実験は、提案したSC-GPTが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-27T18:48:33Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。