論文の概要: Streaming, fast and accurate on-device Inverse Text Normalization for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.03721v1
- Date: Mon, 7 Nov 2022 17:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:25:05.599234
- Title: Streaming, fast and accurate on-device Inverse Text Normalization for
Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのストリーミング、高速、高精度な逆テキスト正規化
- Authors: Yashesh Gaur, Nick Kibre, Jian Xue, Kangyuan Shu, Yuhui Wang, Issac
Alphanso, Jinyu Li, Yifan Gong
- Abstract要約: ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。
私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。
提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 32.094304065301465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems typically yield output in lexical
form. However, humans prefer a written form output. To bridge this gap, ASR
systems usually employ Inverse Text Normalization (ITN).
In previous works, Weighted Finite State Transducers (WFST) have been
employed to do ITN. WFSTs are nicely suited to this task but their size and
run-time costs can make deployment on embedded applications challenging.
In this paper, we describe the development of an on-device ITN system that is
streaming, lightweight & accurate. At the core of our system is a streaming
transformer tagger, that tags lexical tokens from ASR. The tag informs which
ITN category might be applied, if at all. Following that, we apply an
ITN-category-specific WFST, only on the tagged text, to reliably perform the
ITN conversion. We show that the proposed ITN solution performs equivalent to
strong baselines, while being significantly smaller in size and retaining
customization capabilities.
- Abstract(参考訳): 自動音声認識(ASR)システムは通常、語彙形式で出力を出力する。
しかし、人間は文章の出力を好む。
このギャップを埋めるため、asrシステムは通常、逆テキスト正規化 (itn) を用いる。
以前の作品では、ITNを行うためにWFST(Weighted Finite State Transducers)が使用されている。
WFSTはこのタスクに適していますが、そのサイズと実行時のコストは、組み込みアプリケーションへのデプロイを困難にします。
本稿では,ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。
私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。
このタグは、どのITNカテゴリが適用されるのかを通知する。
その後、タグ付きテキストのみにITN固有のWFSTを適用し、ITN変換を確実に行う。
提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。
関連論文リスト
- Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。
本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:58:11Z) - Ultra-low latency quantum-inspired machine learning predictors implemented on FPGA [0.0]
ツリーネットワーク(TN)は、量子多体系を表現するために用いられる計算パラダイムである。
最近の研究は、機械学習(ML)タスクの実行にTNを適用する方法を示している。
本研究では、FPGA(Field-Programmable Gate Array)技術の低ハードウェアを利用して、TTNを高周波リアルタイムアプリケーションに利用することを検討した。
論文 参考訳(メタデータ) (2024-09-24T13:21:21Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Shallow Fusion of Weighted Finite-State Transducer and Language Model
for Text Normalization [13.929356163132558]
ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。
まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最良の候補を選択する。
既存の最先端のTNモデルに匹敵する、あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T21:34:35Z) - A Unified Transformer-based Framework for Duplex Text Normalization [33.90810154067128]
テキスト正規化(TN)と逆テキスト正規化(ITN)は、音声合成と自動音声認識において必要不可欠な前処理および後処理ステップである。
本稿では,TNとITNを同時に処理できる単一ニューラルデュプレックスシステムを構築するための統一的なフレームワークを提案する。
我々のシステムは、英語とロシア語のGoogle TNデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-23T01:55:03Z) - NeMo Inverse Text Normalization: From Development To Production [16.78655059319487]
逆テキスト正規化(ITN)は、音声ドメイン自動音声認識(ASR)出力を書き込みドメインテキストに変換する。
開発から運用までのシームレスなパスを可能にするオープンソースのPython WFSTベースのITNライブラリを紹介します。
論文 参考訳(メタデータ) (2021-04-11T17:09:49Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。