Fugu-MT 論文翻訳(概要): Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition

論文の概要: Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2211.03721v1
Date: Mon, 7 Nov 2022 17:48:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 15:25:05.599234
Title: Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition
Title（参考訳）: 自動音声認識のためのストリーミング、高速、高精度な逆テキスト正規化
Authors: Yashesh Gaur, Nick Kibre, Jian Xue, Kangyuan Shu, Yuhui Wang, Issac Alphanso, Jinyu Li, Yifan Gong
Abstract要約: ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。
参考スコア（独自算出の注目度）: 32.094304065301465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Speech Recognition (ASR) systems typically yield output in lexical form. However, humans prefer a written form output. To bridge this gap, ASR systems usually employ Inverse Text Normalization (ITN). In previous works, Weighted Finite State Transducers (WFST) have been employed to do ITN. WFSTs are nicely suited to this task but their size and run-time costs can make deployment on embedded applications challenging. In this paper, we describe the development of an on-device ITN system that is streaming, lightweight & accurate. At the core of our system is a streaming transformer tagger, that tags lexical tokens from ASR. The tag informs which ITN category might be applied, if at all. Following that, we apply an ITN-category-specific WFST, only on the tagged text, to reliably perform the ITN conversion. We show that the proposed ITN solution performs equivalent to strong baselines, while being significantly smaller in size and retaining customization capabilities.
Abstract（参考訳）: 自動音声認識(ASR)システムは通常、語彙形式で出力を出力する。しかし、人間は文章の出力を好む。このギャップを埋めるため、asrシステムは通常、逆テキスト正規化 (itn) を用いる。以前の作品では、ITNを行うためにWFST(Weighted Finite State Transducers)が使用されている。 WFSTはこのタスクに適していますが、そのサイズと実行時のコストは、組み込みアプリケーションへのデプロイを困難にします。本稿では,ストリーミング,軽量,高精度なオンデバイスITNシステムの開発について述べる。私たちのシステムの中核はストリーミングトランスフォーマータグであり、ASRから語彙トークンをタグ付けします。このタグは、どのITNカテゴリが適用されるのかを通知する。その後、タグ付きテキストのみにITN固有のWFSTを適用し、ITN変換を確実に行う。提案したITNソリューションは,サイズが大幅に小さく,カスタマイズ能力も保ちながら,強力なベースラインに匹敵する性能を示した。

関連論文リスト

Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization [0.19791587637442667]
逆テキスト正規化(ITN)は、音声自動音声認識(ASR)出力を十分に整形されたテキストに変換するために重要である。我々はITNのためのストリーミング事前学習言語モデルを導入し、頑健性を向上させるために事前学習言語表現を活用する。提案手法は,非ストリーミングITNに匹敵する精度を達成し,ベトナムのデータセット上で既存のストリーミングITNモデルを上回る精度を実現する。
論文参考訳（メタデータ） (2025-05-30T05:41:03Z)
Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文参考訳（メタデータ） (2024-09-30T13:58:11Z)
Ultra-low latency quantum-inspired machine learning predictors implemented on FPGA [0.0]
ツリーネットワーク(TN)は、量子多体系を表現するために用いられる計算パラダイムである。最近の研究は、機械学習(ML)タスクの実行にTNを適用する方法を示している。本研究では、FPGA(Field-Programmable Gate Array)技術の低ハードウェアを利用して、TTNを高周波リアルタイムアプリケーションに利用することを検討した。
論文参考訳（メタデータ） (2024-09-24T13:21:21Z)
Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文参考訳（メタデータ） (2024-09-13T10:58:55Z)
Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching [67.98016412551245]
本稿では,新しいASRシステムであるESPUMを紹介する。このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
論文参考訳（メタデータ） (2023-10-03T19:05:32Z)
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文参考訳（メタデータ） (2023-07-07T02:26:18Z)
Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。 WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文参考訳（メタデータ） (2023-03-18T10:36:33Z)
Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text Normalization [13.929356163132558]
ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最良の候補を選択する。既存の最先端のTNモデルに匹敵する、あるいは優れた結果が得られる。
論文参考訳（メタデータ） (2022-03-29T21:34:35Z)
A Unified Transformer-based Framework for Duplex Text Normalization [33.90810154067128]
テキスト正規化(TN)と逆テキスト正規化(ITN)は、音声合成と自動音声認識において必要不可欠な前処理および後処理ステップである。本稿では,TNとITNを同時に処理できる単一ニューラルデュプレックスシステムを構築するための統一的なフレームワークを提案する。我々のシステムは、英語とロシア語のGoogle TNデータセットで最先端の結果を得る。
論文参考訳（メタデータ） (2021-08-23T01:55:03Z)
NeMo Inverse Text Normalization: From Development To Production [16.78655059319487]
逆テキスト正規化(ITN)は、音声ドメイン自動音声認識(ASR)出力を書き込みドメインテキストに変換する。開発から運用までのシームレスなパスを可能にするオープンソースのPython WFSTベースのITNライブラリを紹介します。
論文参考訳（メタデータ） (2021-04-11T17:09:49Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。