論文の概要: NeMo Inverse Text Normalization: From Development To Production
- arxiv url: http://arxiv.org/abs/2104.05055v1
- Date: Sun, 11 Apr 2021 17:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 07:06:46.678390
- Title: NeMo Inverse Text Normalization: From Development To Production
- Title(参考訳): NeMoの逆テキスト正規化:開発から生産へ
- Authors: Yang Zhang, Evelina Bakhturina, Kyle Gorman, Boris Ginsburg
- Abstract要約: 逆テキスト正規化(ITN)は、音声ドメイン自動音声認識(ASR)出力を書き込みドメインテキストに変換する。
開発から運用までのシームレスなパスを可能にするオープンソースのPython WFSTベースのITNライブラリを紹介します。
- 参考スコア(独自算出の注目度): 16.78655059319487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse text normalization (ITN) converts spoken-domain automatic speech
recognition (ASR) output into written-domain text to improve the readability of
the ASR output. Many state-of-the-art ITN systems use hand-written weighted
finite-state transducer(WFST) grammars since this task has extremely low
tolerance to unrecoverable errors. We introduce an open-source Python
WFST-based library for ITN which enables a seamless path from development to
production. We describe the specification of ITN grammar rules for English, but
the library can be adapted for other languages. It can also be used for
written-to-spoken text normalization. We evaluate the NeMo ITN library using a
modified version of the Google Text normalization dataset.
- Abstract(参考訳): 逆テキスト正規化(ITN)は、音声ドメイン自動音声認識(ASR)出力を書き込みドメインテキストに変換し、ASR出力の可読性を改善する。
多くの最先端itnシステムは、手書きの重み付き有限状態トランスデューサ(wfst)文法を使用している。
我々は,開発から運用までのシームレスなパスを可能にするオープンソースPython WFSTベースのITNライブラリを紹介した。
英語におけるITN文法規則の仕様について述べるが,他の言語にも適用可能である。
テキストの正規化にも使える。
我々はGoogle Text正規化データセットの修正版を用いてNeMo ITNライブラリを評価する。
関連論文リスト
- Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。
このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T10:33:03Z) - Streaming, fast and accurate on-device Inverse Text Normalization for
Automatic Speech Recognition [32.094304065301465]
ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。
私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。
提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-11-07T17:48:54Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - A Unified Transformer-based Framework for Duplex Text Normalization [33.90810154067128]
テキスト正規化(TN)と逆テキスト正規化(ITN)は、音声合成と自動音声認識において必要不可欠な前処理および後処理ステップである。
本稿では,TNとITNを同時に処理できる単一ニューラルデュプレックスシステムを構築するための統一的なフレームワークを提案する。
我々のシステムは、英語とロシア語のGoogle TNデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-23T01:55:03Z) - Proteno: Text Normalization with Limited Data for Fast Deployment in
Text to Speech Systems [15.401574286479546]
新しい言語上でのテキスト音声(TTS)のテキスト正規化(TN)は困難である。
そこで本研究では,複数の言語で使用するデータのサイズを3%未満に抑えながら,複数の言語に対応可能な新しいアーキテクチャを提案する。
スペイン語とタミル語でTN for TTSの最初の成果を公開し、また、アプローチのパフォーマンスが以前の英語での作業に匹敵することを示した。
論文 参考訳(メタデータ) (2021-04-15T21:14:28Z) - Neural Inverse Text Normalization [11.240669509034298]
逆テキスト正規化のための効率的かつ堅牢なニューラルソリューションを提案する。
言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。
プリトレーニングと融合したトランスベースモデルは、複数のデータセットで一貫して低いwerを達成する。
論文 参考訳(メタデータ) (2021-02-12T07:53:53Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。