論文の概要: The NTNU System at the Interspeech 2020 Non-Native Children's Speech ASR
Challenge
- arxiv url: http://arxiv.org/abs/2005.08433v2
- Date: Tue, 2 Jun 2020 19:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:05:43.982001
- Title: The NTNU System at the Interspeech 2020 Non-Native Children's Speech ASR
Challenge
- Title(参考訳): NTNUシステムによるNative Children's Speech ASR Challengeの開催
- Authors: Tien-Hong Lo, Fu-An Chao, Shi-Yan Weng, Berlin Chen
- Abstract要約: 本稿では,ISCAのSIG-ChiLDグループによって支援された,2020年の非Native Children's Speech ASR Challengeについて述べる。
すべての参加者は、主催者が提供した音声とテキストのコーパスに基づいてシステムを開発することを制限された。
そこで我々は,CNN-TDNNFをベースとした音響モデル上にASRシステムを構築した。
- 参考スコア(独自算出の注目度): 13.232899176888575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the NTNU ASR system participating in the Interspeech
2020 Non-Native Children's Speech ASR Challenge supported by the SIG-CHILD
group of ISCA. This ASR shared task is made much more challenging due to the
coexisting diversity of non-native and children speaking characteristics. In
the setting of closed-track evaluation, all participants were restricted to
develop their systems merely based on the speech and text corpora provided by
the organizer. To work around this under-resourced issue, we built our ASR
system on top of CNN-TDNNF-based acoustic models, meanwhile harnessing the
synergistic power of various data augmentation strategies, including both
utterance- and word-level speed perturbation and spectrogram augmentation,
alongside a simple yet effective data-cleansing approach. All variants of our
ASR system employed an RNN-based language model to rescore the first-pass
recognition hypotheses, which was trained solely on the text dataset released
by the organizer. Our system with the best configuration came out in second
place, resulting in a word error rate (WER) of 17.59 %, while those of the
top-performing, second runner-up and official baseline systems are 15.67%,
18.71%, 35.09%, respectively.
- Abstract(参考訳): 本稿では,ISCAのSIG-ChiLDグループによって支援された,2020年の非Native Children's Speech ASR Challengeに参加するNTNU ASRシステムについて述べる。
このasr共有タスクは、非ネイティブと子供の発話特性が共存しているため、はるかに困難になっている。
閉トラック評価の設定では,すべての参加者は,オーガナイザが提供した音声とテキストコーパスに基づいて,システムの開発を制限された。
そこで我々は,CNN-TDNNFをベースとした音響モデル上にASRシステムを構築し,発話と単語レベルの速度摂動とスペクトログラムの増大を含む,さまざまなデータ拡張戦略の相乗的パワーを利用する。
ASRシステムのすべての変種は、RNNベースの言語モデルを使用して、オーガナイザがリリースしたテキストデータセットのみに基づいてトレーニングされた、ファーストパス認識仮説を再評価した。
最も優れた構成のシステムでは、ワードエラー率(WER)が17.59%となり、トップパフォーマンス、2位、公式ベースラインのシステムは15.67%、18.71%、35.09%となっている。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - THUEE system description for NIST 2020 SRE CTS challenge [19.2916501364633]
本稿では,NIST 2020 Speaker Recognition Evaluation (SRE) のためのTHUEEチームのシステム記述について述べる。
この評価では、ResNet74、ResNet152、RepVGG-B2などのサブシステムが話者埋め込み抽出器として開発された。
論文 参考訳(メタデータ) (2022-10-12T12:01:59Z) - The 2021 NIST Speaker Recognition Evaluation [1.5282767384702267]
2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。
本稿では,タスク,評価基準,データ,評価プロトコル,結果,システム性能分析などを含むSRE21の概要について述べる。
論文 参考訳(メタデータ) (2022-04-21T16:18:52Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Earnings-21: A Practical Benchmark for ASR in the Wild [4.091202801240259]
Earnings-21は、9つの異なる金融セクターからのエンティティディセンススピーチを含む39時間の収益コールコーパスです。
我々は、4つの商用ASRモデル、オープンソースツールで構築された2つの内部モデル、オープンソースのLibriSpeechモデルをベンチマークする。
解析の結果,特定のnerカテゴリのasr精度は低く,理解と使用の書き起こしに重大な障害が生じた。
論文 参考訳(メタデータ) (2021-04-22T23:04:28Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Refining Automatic Speech Recognition System for older adults [7.3709604810699085]
社会的に孤立した高齢者(80歳以上)の認知障害のあるASRシステムを開発した。
成人のASRが対象人口に悪影響を及ぼすことを実験的に確認した。
我々は、モデルの中間情報を利用するための注意機構を活用することにより、システムをさらに改善する。
論文 参考訳(メタデータ) (2020-11-17T00:00:45Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。