論文の概要: End to End ASR System with Automatic Punctuation Insertion
- arxiv url: http://arxiv.org/abs/2012.02012v1
- Date: Thu, 3 Dec 2020 15:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 21:13:45.562366
- Title: End to End ASR System with Automatic Punctuation Insertion
- Title(参考訳): 自動句読点挿入による終端ASRシステム
- Authors: Yushi Guan
- Abstract要約: 本稿では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。
また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Automatic Speech Recognition systems have been moving towards
end-to-end systems that can be trained together. Numerous techniques that have
been proposed recently enabled this trend, including feature extraction with
CNNs, context capturing and acoustic feature modeling with RNNs, automatic
alignment of input and output sequences using Connectionist Temporal
Classifications, as well as replacing traditional n-gram language models with
RNN Language Models. Historically, there has been a lot of interest in
automatic punctuation in textual or speech to text context. However, there
seems to be little interest in incorporating automatic punctuation into the
emerging neural network based end-to-end speech recognition systems, partially
due to the lack of English speech corpus with punctuated transcripts. In this
study, we propose a method to generate punctuated transcript for the TEDLIUM
dataset using transcripts available from ted.com. We also propose an end-to-end
ASR system that outputs words and punctuations concurrently from speech
signals. Combining Damerau Levenshtein Distance and slot error rate into
DLev-SER, we enable measurement of punctuation error rate when the hypothesis
text is not perfectly aligned with the reference. Compared with previous
methods, our model reduces slot error rate from 0.497 to 0.341.
- Abstract(参考訳): 最近の自動音声認識システムは、一緒に訓練できるエンドツーエンドシステムに向かっている。
CNNによる特徴抽出、コンテキストキャプチャとRNNによる音響特徴モデリング、Connectionist Temporal Classificationsを用いた入力シーケンスと出力シーケンスの自動アライメント、従来のn-gram言語モデルをRNN言語モデルに置き換えるなど、最近提案された多くのテクニックによってこの傾向が実現された。
歴史的に、テキストや音声からテキストへの自動句読点に多くの関心が寄せられている。
しかし、英語の音声コーパスの欠如や句読点の欠如などもあり、新たなニューラルネットワークに基づくエンドツーエンド音声認識システムに自動句読点を導入することにはほとんど関心がないようである。
本研究では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。
また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。
Damerau Levenshtein Distanceとスロットエラー率をDLev-SERに組み合わせることで、仮説テキストが参照と完全に一致していない場合の句読点誤り率の測定を可能にする。
従来の手法と比較して,スロットエラー率は0.497から0.341に減少する。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。
我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。
提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文 参考訳(メタデータ) (2021-05-12T11:36:01Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文 参考訳(メタデータ) (2021-03-18T15:38:08Z) - WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal
Classification Paradigm [0.0]
分類設定におけるe-WERの新たなバランスの取れたパラダイムを提案する。
このパラダイムでは、E-WERの音声機能を備えたBERTベースのアーキテクチャであるWER-BERTも提案しています。
結果と実験は、WER-BERTが自動WER推定において新しい最先端を確立することを示しています。
論文 参考訳(メタデータ) (2021-01-14T07:26:28Z) - Replacing Human Audio with Synthetic Audio for On-device Unspoken
Punctuation Prediction [10.516452073178511]
本稿では,音響的特徴とテキスト的特徴を組み合わせた,英語のマルチモーダル・アンスポークな句読解予測システムを提案する。
本研究では,韻律を意識したテキスト音声合成システムを用いて生成した合成データにのみ依存することで,未知の句読点予測問題に対して,高価な人間の音声録音で訓練されたモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-20T11:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。