論文の概要: The THUEE System Description for the IARPA OpenASR21 Challenge
- arxiv url: http://arxiv.org/abs/2206.14660v1
- Date: Wed, 29 Jun 2022 14:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 23:20:35.921677
- Title: The THUEE System Description for the IARPA OpenASR21 Challenge
- Title(参考訳): IARPA OpenASR21チャレンジにおけるTHUEEシステム記述
- Authors: Jing Zhao, Haoyu Wang, Jinpeng Li, Shuzhou Chai, Guan-Bo Wang, Guoguo
Chen, Wei-Qiang Zhang
- Abstract要約: 本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
- 参考スコア(独自算出の注目度): 12.458730613670316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the THUEE team's speech recognition system for the IARPA
Open Automatic Speech Recognition Challenge (OpenASR21), with further
experiment explorations. We achieve outstanding results under both the
Constrained and Constrained-plus training conditions. For the Constrained
training condition, we construct our basic ASR system based on the standard
hybrid architecture. To alleviate the Out-Of-Vocabulary (OOV) problem, we
extend the pronunciation lexicon using Grapheme-to-Phoneme (G2P) techniques for
both OOV and potential new words. Standard acoustic model structures such as
CNN-TDNN-F and CNN-TDNN-F-A are adopted. In addition, multiple data
augmentation techniques are applied. For the Constrained-plus training
condition, we use the self-supervised learning framework wav2vec2.0. We
experiment with various fine-tuning techniques with the Connectionist Temporal
Classification (CTC) criterion on top of the publicly available pre-trained
model XLSR-53. We find that the frontend feature extractor plays an important
role when applying the wav2vec2.0 pre-trained model to the encoder-decoder
based CTC/Attention ASR architecture. Extra improvements can be achieved by
using the CTC model finetuned in the target language as the frontend feature
extractor.
- Abstract(参考訳): 本稿では,IARPA Open Automatic Speech Recognition Challenge (OpenASR21) のためのTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
制約のあるトレーニング条件のために,標準ハイブリッドアーキテクチャに基づく基本asrシステムを構築した。
oov(out-of-vocabulary)問題を緩和するために、g2p(grapheme-to-phoneme)技術を用いて発音レキシコンを拡張する。
CNN-TDNN-FやCNN-TDNN-F-Aのような標準音響モデル構造を採用する。
さらに、複数のデータ拡張技術を適用する。
Constrained-plusトレーニング条件では、自己教師付き学習フレームワークwav2vec2.0を使用します。
我々は,コネクショニスト時間分類(CTC)基準を用いた様々な微調整手法を,一般公開された事前学習モデルXLSR-53上で実験した。
エンコーダデコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,フロントエンド特徴抽出器が重要な役割を果たすことがわかった。
対象言語で微調整されたCTCモデルをフロントエンド特徴抽出器として用いることで、さらなる改善が達成できる。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units [8.86336076082867]
本研究では,E2E KWS システムを非転写データで事前学習する手法を提案する。
このようなモデルの微調整は、スクラッチからトレーニングしたモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-05T17:07:58Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Improving CTC-based speech recognition via knowledge transferring from
pre-trained language models [30.599901925058873]
CTCに基づくモデルを改善するために,2つの知識伝達手法を提案する。
最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。
第2の方法は、テキストモデリングのためのGPT2とハイブリッドCTC/アテンションアーキテクチャを組み合わせた共同分類学習に基づいている。
論文 参考訳(メタデータ) (2022-02-22T11:30:55Z) - Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model [4.490054848527943]
本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
論文 参考訳(メタデータ) (2021-12-14T09:38:31Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。