論文の概要: Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children
- arxiv url: http://arxiv.org/abs/2206.08058v1
- Date: Thu, 16 Jun 2022 10:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:33:24.890919
- Title: Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children
- Title(参考訳): 幼児の言語発達テストにおける非単語の発音分類
- Authors: Ilja Baumann, Dominik Wagner, Sebastian Bayerl, Tobias Bocklet
- Abstract要約: 本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
- 参考スコア(独自算出の注目度): 7.224391516694955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to automatically evaluate whether the language development of
children is age-appropriate. Validated speech and language tests are used for
this purpose to test the auditory memory. In this work, the task is to
determine whether spoken nonwords have been uttered correctly. We compare
different approaches that are motivated to model specific language structures:
Low-level features (FFT), speaker embeddings (ECAPA-TDNN), grapheme-motivated
embeddings (wav2vec 2.0), and phonetic embeddings in form of senones (ASR
acoustic model). Each of the approaches provides input for VGG-like 5-layer CNN
classifiers. We also examine the adaptation per nonword. The evaluation of the
proposed systems was performed using recordings from different kindergartens of
spoken nonwords. ECAPA-TDNN and low-level FFT features do not explicitly model
phonetic information; wav2vec2.0 is trained on grapheme labels, our ASR
acoustic model features contain (sub-)phonetic information. We found that the
more granular the phonetic modeling is, the higher are the achieved recognition
rates. The best system trained on ASR acoustic model features with VTLN
achieved an accuracy of 89.4% and an area under the ROC (Receiver Operating
Characteristic) curve (AUC) of 0.923. This corresponds to an improvement in
accuracy of 20.2% and AUC of 0.309 relative compared to the FFT-baseline.
- Abstract(参考訳): 本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
この目的のために、音声と言語による検証を行い、聴覚記憶をテストする。
本研究の課題は,話し言葉が正しく発声されたかどうかを判断することである。
低レベル特徴(FFT)、話者埋め込み(ECAPA-TDNN)、グラファイムを動機とした埋め込み(wav2vec 2.0)、セノン(ASR音響モデル)などの言語構造をモデル化するための様々なアプローチを比較した。
それぞれのアプローチはVGGライクな5層CNN分類器の入力を提供する。
ノンワードによる適応についても検討する。
提案システムの評価は,話し言葉の異なる幼稚園の音声記録を用いて行った。
ECAPA-TDNNと低レベルFFT機能は、明示的に音声情報をモデル化しない。wav2vec2.0は、グラファイムラベルに基づいて訓練されており、ASR音響モデルは、(サブ)音声情報を含む。
その結果,音素モデルの方が粒度が高いほど認識率が高くなることがわかった。
VTLNでASR音響モデルの特徴を訓練した最良のシステムは89.4%の精度で、LOC曲線(AUC) 0.923の領域を達成した。
これはFFTベースラインと比較して精度が20.2%、AUCが0.309である。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Private Language Model Adaptation for Speech Recognition [15.726921748859393]
音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために不可欠である。
本稿では,ニューラルネットワーク言語モデル(NNLM)を,音声認識に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T00:15:43Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。