論文の概要: Semi-supervised acoustic modelling for five-lingual code-switched ASR
using automatically-segmented soap opera speech
- arxiv url: http://arxiv.org/abs/2004.06480v1
- Date: Wed, 8 Apr 2020 04:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 09:46:53.116211
- Title: Semi-supervised acoustic modelling for five-lingual code-switched ASR
using automatically-segmented soap opera speech
- Title(参考訳): 自動ソープオペラ音声を用いた5言語コード切り換えasrの半教師付き音響モデル
- Authors: N. Wilkinson, A. Biswas, E. Y{\i}lmaz, F. de Wet, E. van der
Westhuizen, T.R. Niesler
- Abstract要約: 3つの自動手法は、フレームワイド分類に新しく提案された畳み込みニューラルネットワーク(CNN)モデルを使用する。
最良性能セグメンテーション法は話者ダイアリゼーションを使わずに試験した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the impact of automatic segmentation on the
fully-automatic, semi-supervised training of automatic speech recognition (ASR)
systems for five-lingual code-switched (CS) speech. Four automatic segmentation
techniques were evaluated in terms of the recognition performance of an ASR
system trained on the resulting segments in a semi-supervised manner. The
system's output was compared with the recognition rates achieved by a
semi-supervised system trained on manually assigned segments. Three of the
automatic techniques use a newly proposed convolutional neural network (CNN)
model for framewise classification, and include a novel form of HMM smoothing
of the CNN outputs. Automatic segmentation was applied in combination with
automatic speaker diarization. The best-performing segmentation technique was
also tested without speaker diarization. An evaluation based on 248 unsegmented
soap opera episodes indicated that voice activity detection (VAD) based on a
CNN followed by Gaussian mixture modelhidden Markov model smoothing
(CNN-GMM-HMM) yields the best ASR performance. The semi-supervised system
trained with the resulting segments achieved an overall WER improvement of 1.1%
absolute over the system trained with manually created segments. Furthermore,
we found that system performance improved even further when the automatic
segmentation was used in conjunction with speaker diarization.
- Abstract(参考訳): 本稿では,自動セグメンテーションが5言語コードスイッチング(CS)音声の自動音声認識(ASR)システムの完全自動・半教師付き訓練に与える影響を考察する。
得られたセグメントを半教師付きで訓練したasrシステムの認識性能について,4つの自動セグメント化手法を評価した。
システムの出力は、手動で割り当てられたセグメントで訓練された半教師付きシステムによって達成された認識率と比較された。
3つの自動手法は、フレームワイズ分類のために新しく提案された畳み込みニューラルネットワーク(CNN)モデルを使用し、CNN出力の新たなHMM平滑化を含む。
自動セグメンテーションは話者ダイアリゼーションと組み合わせて適用した。
最良性能セグメンテーション法は話者ダイアリゼーションなしで試験された。
248のソープオペラのエピソードに基づく評価では、cnnに基づく音声活動検出(vad)とガウス混合モデルhidden markov model smoothing(cnn-gmm-hmm)がasr性能の最高値を示している。
結果として得られたセグメントで訓練された半教師付きシステムは、手動で作成したセグメントで訓練されたシステムよりも1.1%絶対的に改善された。
さらに,話者ダイアリゼーションと連動して自動セグメンテーションを用いた場合,システム性能はさらに向上した。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Semi-supervised ASR by End-to-end Self-training [18.725686837244265]
半教師付きASRのためのエンドツーエンドシステムを用いた自己学習手法を提案する。
我々は、現在モデルと教師なし発話のミニバッチ上に擬似ラベルを反復的に生成し、擬似ラベルを使用して教師付きデータを即時モデル更新する。
提案手法は,データ拡張を伴う慎重に訓練されたベースシステムに対して14.4%の相対的なWER改善を実現し,ベースシステムとオラクルシステム間の性能ギャップを50%削減する。
論文 参考訳(メタデータ) (2020-01-24T18:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。