論文の概要: Streaming, fast and accurate on-device Inverse Text Normalization for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.03721v1
- Date: Mon, 7 Nov 2022 17:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:25:05.599234
- Title: Streaming, fast and accurate on-device Inverse Text Normalization for
Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのストリーミング、高速、高精度な逆テキスト正規化
- Authors: Yashesh Gaur, Nick Kibre, Jian Xue, Kangyuan Shu, Yuhui Wang, Issac
Alphanso, Jinyu Li, Yifan Gong
- Abstract要約: ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。
私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。
提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 32.094304065301465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems typically yield output in lexical
form. However, humans prefer a written form output. To bridge this gap, ASR
systems usually employ Inverse Text Normalization (ITN).
In previous works, Weighted Finite State Transducers (WFST) have been
employed to do ITN. WFSTs are nicely suited to this task but their size and
run-time costs can make deployment on embedded applications challenging.
In this paper, we describe the development of an on-device ITN system that is
streaming, lightweight & accurate. At the core of our system is a streaming
transformer tagger, that tags lexical tokens from ASR. The tag informs which
ITN category might be applied, if at all. Following that, we apply an
ITN-category-specific WFST, only on the tagged text, to reliably perform the
ITN conversion. We show that the proposed ITN solution performs equivalent to
strong baselines, while being significantly smaller in size and retaining
customization capabilities.
- Abstract(参考訳): 自動音声認識(ASR)システムは通常、語彙形式で出力を出力する。
しかし、人間は文章の出力を好む。
このギャップを埋めるため、asrシステムは通常、逆テキスト正規化 (itn) を用いる。
以前の作品では、ITNを行うためにWFST(Weighted Finite State Transducers)が使用されている。
WFSTはこのタスクに適していますが、そのサイズと実行時のコストは、組み込みアプリケーションへのデプロイを困難にします。
本稿では,ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。
私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。
このタグは、どのITNカテゴリが適用されるのかを通知する。
その後、タグ付きテキストのみにITN固有のWFSTを適用し、ITN変換を確実に行う。
提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。
関連論文リスト
- Unsupervised Speech Recognition with N-Skipgram and Positional Unigram
Matching [67.98016412551245]
本稿では,新しいASRシステムであるESPUMを紹介する。
このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。
本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-10-03T19:05:32Z) - Improving Robustness of Neural Inverse Text Normalization via
Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method [4.343606621506086]
逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である
本稿では,ASR 言語文脈エミュレーションによるペアの強化と,大規模言語モデルにより強化された半教師付き学習手法を用いて,ASR 生成したテキストや音声テキストを利用するダイレクトトレーニング手法を提案する。
提案手法は,様々なASRシナリオにおけるITN性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-12T06:05:57Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Improving Data Driven Inverse Text Normalization using Data Augmentation [14.820077884045645]
逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。
本稿では、ドメイン外のテキストデータからリッチな音声による数値ペアを効果的に生成するデータ拡張手法を提案する。
我々は、データ拡張技術を用いてトレーニングしたITNモデルが、ドメイン内データのみを用いてトレーニングしたITNモデルより一貫して優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-07-20T06:07:26Z) - Shallow Fusion of Weighted Finite-State Transducer and Language Model
for Text Normalization [13.929356163132558]
ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。
まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最良の候補を選択する。
既存の最先端のTNモデルに匹敵する、あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T21:34:35Z) - A Unified Transformer-based Framework for Duplex Text Normalization [33.90810154067128]
テキスト正規化(TN)と逆テキスト正規化(ITN)は、音声合成と自動音声認識において必要不可欠な前処理および後処理ステップである。
本稿では,TNとITNを同時に処理できる単一ニューラルデュプレックスシステムを構築するための統一的なフレームワークを提案する。
我々のシステムは、英語とロシア語のGoogle TNデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-23T01:55:03Z) - NeMo Inverse Text Normalization: From Development To Production [16.78655059319487]
逆テキスト正規化(ITN)は、音声ドメイン自動音声認識(ASR)出力を書き込みドメインテキストに変換する。
開発から運用までのシームレスなパスを可能にするオープンソースのPython WFSTベースのITNライブラリを紹介します。
論文 参考訳(メタデータ) (2021-04-11T17:09:49Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。