論文の概要: Contextual-Utterance Training for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.16238v1
- Date: Thu, 27 Oct 2022 08:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:52:17.127407
- Title: Contextual-Utterance Training for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための文脈発話訓練
- Authors: Alejandro Gomez-Alanis, Lukas Drude, Andreas Schwarz, Rupak Vignesh
Swaminathan, Simon Wiesler
- Abstract要約: 本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
- 参考スコア(独自算出の注目度): 65.4571135368178
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent studies of streaming automatic speech recognition (ASR) recurrent
neural network transducer (RNN-T)-based systems have fed the encoder with past
contextual information in order to improve its word error rate (WER)
performance. In this paper, we first propose a contextual-utterance training
technique which makes use of the previous and future contextual utterances in
order to do an implicit adaptation to the speaker, topic and acoustic
environment. Also, we propose a dual-mode contextual-utterance training
technique for streaming automatic speech recognition (ASR) systems. This
proposed approach allows to make a better use of the available acoustic context
in streaming models by distilling "in-place" the knowledge of a teacher, which
is able to see both past and future contextual utterances, to the student which
can only see the current and past contextual utterances. The experimental
results show that a conformer-transducer system trained with the proposed
techniques outperforms the same system trained with the classical RNN-T loss.
Specifically, the proposed technique is able to reduce both the WER and the
average last token emission latency by more than 6% and 40ms relative,
respectively.
- Abstract(参考訳): 近年のストリーミング自動音声認識(ASR)リカレントニューラルネットワークトランスデューサ(RNN-T)ベースのシステムでは,単語誤り率(WER)の性能向上のために,過去の文脈情報でエンコーダを供給している。
本稿では,まず,話者,話題,音響環境に対して暗黙的適応を行うために,前者および将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法は,教師の知識を「その場」に蒸留し,過去と未来の両方の文脈発話を,現在と過去の文脈発話しか見ることができない生徒に蒸留することで,ストリーミングモデルで利用可能な音響コンテキストをよりよく活用することを可能にする。
実験の結果,提案手法で訓練したコンバータ・トランスデューサシステムは,古典的RNN-T損失で訓練したシステムよりも優れていた。
具体的には,提案手法により,平均的なトークン放出遅延を6%以上,40ms以上低減することができた。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。