論文の概要: Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation
- arxiv url: http://arxiv.org/abs/2306.01296v1
- Date: Fri, 2 Jun 2023 06:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:33:22.827094
- Title: Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation
- Title(参考訳): 句読点付きエンド・ツー・エンド自動音声認識モデルの訓練改善
- Authors: Hanbyul Kim, Seunghyun Seo, Lukas Lee, Seolki Baek
- Abstract要約: 本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
- 参考スコア(独自算出の注目度): 0.08602553195689511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Punctuated text prediction is crucial for automatic speech recognition as it
enhances readability and impacts downstream natural language processing tasks.
In streaming scenarios, the ability to predict punctuation in real-time is
particularly desirable but presents a difficult technical challenge. In this
work, we propose a method for predicting punctuated text from input speech
using a chunk-based Transformer encoder trained with Connectionist Temporal
Classification (CTC) loss. The acoustic model trained with long sequences by
concatenating the input and target sequences can learn punctuation marks
attached to the end of sentences more effectively. Additionally, by combining
CTC losses on the chunks and utterances, we achieved both the improved F1 score
of punctuation prediction and Word Error Rate (WER).
- Abstract(参考訳): テキストの句読化は,可読性の向上と下流自然言語処理に影響を及ぼすため,音声認識に不可欠である。
ストリーミングシナリオでは、リアルタイムに句読点を予測する能力が特に望ましいが、難しい技術的課題が提示される。
本研究では,コネクショニスト時相分類(ctc)を訓練したチャンクベーストランスコーダを用いて,入力音声からの句読上げテキストの予測手法を提案する。
入力シーケンスとターゲットシーケンスを連結することにより、長いシーケンスで訓練された音響モデルは、文の末尾に取り付けられた句読点をより効果的に学習することができる。
さらに,チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
関連論文リスト
- Streaming Punctuation: A Novel Punctuation Technique Leveraging
Bidirectional Context for Continuous Speech Recognition [0.8670827427401333]
本稿では,動的デコードウィンドウを用いたASR出力の句読点や再句読点に対するストリーミング手法を提案する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2023-01-10T07:07:20Z) - Assessing Phrase Break of ESL speech with Pre-trained Language Models [6.635783609515407]
本研究は,事前学習言語モデル(PLM)を用いたESL学習者の発話におけるフレーズブレークの評価手法を提案する。
従来の手法とは異なり、この提案では音声をトークンシーケンスに変換し、PLMのパワーを活用する。
論文 参考訳(メタデータ) (2022-10-28T10:06:06Z) - Streaming Punctuation for Long-form Dictation with Transformers [0.8670827427401333]
ストリーミング句読点は、機械翻訳の下流タスクに対して平均BLEUスコアゲイン0.66を達成する。
新しいシステムは過剰セグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2022-10-11T20:03:03Z) - End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-07-07T08:58:01Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Token-Level Supervised Contrastive Learning for Punctuation Restoration [7.9713449581347104]
句読解は自然言語の文章を理解するのに重要である。
ほとんどの自動音声認識システムは句読点を生成しない。
句読点修復における最近の研究は、事前訓練された言語モデルを大いに活用している。
論文 参考訳(メタデータ) (2021-07-19T18:24:33Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。