Fugu-MT 論文翻訳(概要): Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings

論文の概要: Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings

arxiv url: http://arxiv.org/abs/2405.13018v1
Date: Wed, 15 May 2024 06:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 02:48:13.117483
Title: Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings
Title（参考訳）: 小学校数学教室における自動音声認識におけるWav2vec2.0の領域適応のための事前学習
Authors: Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi, Jing Liu, Carol Espy-Wilson,
Abstract要約: We study the effective of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain。この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。
参考スコア（独自算出の注目度）: 4.266613351203219
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Creating Automatic Speech Recognition (ASR) systems that are robust and resilient to classroom conditions is paramount to the development of AI tools to aid teachers and students. In this work, we study the efficacy of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain. We show that CPT is a powerful tool in that regard and reduces the Word Error Rate (WER) of Wav2vec2.0-based models by upwards of 10%. More specifically, CPT improves the model's robustness to different noises, microphones, classroom conditions as well as classroom demographics. Our CPT models show improved ability to generalize to different demographics unseen in the labeled finetuning data.
Abstract（参考訳）: 教師や生徒を支援するAIツールの開発において,教室環境に頑健でレジリエントな自動音声認識(ASR)システムの構築が最重要である。本研究は,Wav2vec2.0を教室領域に適応させるための継続事前訓練(CPT)の有効性について検討した。この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。より具体的には、CPTは、異なるノイズ、マイク、教室の状態、および教室の人口層に対するモデルの堅牢性を改善する。我々のCPTモデルは、ラベル付き微調整データに見つからない異なる人口層に一般化する能力の向上を示している。

関連論文リスト

Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文参考訳（メタデータ） (2025-05-05T12:36:03Z)
CPT-Boosted Wav2vec2.0: Towards Noise Robust Speech Recognition for Classroom Environments [4.266613351203219]
We study the effective of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain。この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。
論文参考訳（メタデータ） (2024-09-13T19:14:18Z)
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-25T00:37:34Z)
Improving Low-Resource Speech Recognition with Pretrained Speech Models: Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文参考訳（メタデータ） (2022-07-01T21:02:51Z)
On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。 960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文参考訳（メタデータ） (2022-04-25T19:25:46Z)
STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文参考訳（メタデータ） (2021-11-03T15:31:01Z)
Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition [78.92428622630861]
wav2vec 2.0は、音声感情認識(SER)に使用できるバニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。 V-FTがIEMOCAPデータセットの最先端モデルより優れていることを示す。 P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
論文参考訳（メタデータ） (2021-10-12T19:55:55Z)
Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文参考訳（メタデータ） (2021-09-14T17:58:09Z)
Voice2Series: Reprogramming Acoustic Models for Time Series Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。 V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文参考訳（メタデータ） (2021-06-17T07:59:15Z)
On Scaling Contrastive Representations for Low-Resource Speech Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文参考訳（メタデータ） (2021-02-01T13:58:02Z)
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition [97.44056170380726]
我々は,半教師付き学習と自動音声認識の組み合わせを用いて,LibriSpeechの最先端結果を得る。我々は,wav2vec 2.0事前学習を用いた巨大コンフォーマーモデルを用いてSpecAugmentを用いたノイズの多い学生訓練を行う。 We can able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other set against the current-of-the-art WERs 1.7%/3.3%。
論文参考訳（メタデータ） (2020-10-20T17:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。