論文の概要: Automatic Speech Recognition of Non-Native Child Speech for Language
Learning Applications
- arxiv url: http://arxiv.org/abs/2306.16710v1
- Date: Thu, 29 Jun 2023 06:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:39:32.336842
- Title: Automatic Speech Recognition of Non-Native Child Speech for Language
Learning Applications
- Title(参考訳): 言語学習用非負の子音の自動音声認識
- Authors: Simone Wills, Yu Bai, Cristian Tejedor-Garcia, Catia Cucchiarini,
Helmer Strik
- Abstract要約: 我々は、最先端のASRシステムであるWav2Vec2.0とWhisper AIの性能を評価する。
オランダ語母語,非母語母語母語,非母語母語母語,母語母語母語母語母語,母語母語母語母語母語,母語母語母語母語母語母語母語母語,母語母語母語母語母語母語母語母語,母語母語母語母語母語母語
- 参考スコア(独自算出の注目度): 18.849741353784328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voicebots have provided a new avenue for supporting the development of
language skills, particularly within the context of second language learning.
Voicebots, though, have largely been geared towards native adult speakers. We
sought to assess the performance of two state-of-the-art ASR systems,
Wav2Vec2.0 and Whisper AI, with a view to developing a voicebot that can
support children acquiring a foreign language. We evaluated their performance
on read and extemporaneous speech of native and non-native Dutch children. We
also investigated the utility of using ASR technology to provide insight into
the children's pronunciation and fluency. The results show that recent,
pre-trained ASR transformer-based models achieve acceptable performance from
which detailed feedback on phoneme pronunciation quality can be extracted,
despite the challenging nature of child and non-native speech.
- Abstract(参考訳): ボイスボットは、特に第二言語学習の文脈において、言語スキルの開発を支援する新しい道を提供する。
しかし、音声ボットは、主にネイティブな大人のスピーカーに向けられている。
外国語習得を支援する音声ボットの開発を目的として,最先端asrシステムであるwav2vec2.0とwhisper aiの性能評価を試みた。
オランダ語母語・非母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語と母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母子)の読み・母語母語母語母語母語母語母の発話について評価を行った。
また, 子どもの発音や流布状況を把握するために, ASR 技術の有用性についても検討した。
その結果,近年のasrトランスフォーマモデルでは,子どもや非母語音声の難易度に拘わらず,音素の発音品質に関する詳細なフィードバックを抽出できる。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Error-preserving Automatic Speech Recognition of Young English Learners' Language [6.491559928368298]
言語学習者が実践しなければならない中心的なスキルの1つは、言語を話すことである。
近年の音声技術と自然言語処理の進歩は、彼らの発話スキルを実践する新しいツールの開発を可能にしている。
そこで我々は,若手学習者による自然発話に対処し,誤りを抑えるASRシステムを構築した。
論文 参考訳(メタデータ) (2024-06-05T13:15:37Z) - Child Speech Recognition in Human-Robot Interaction: Problem Solved? [0.024739484546803334]
データ駆動音声認識の最近の進化は、子供向け音声認識とソーシャルロボット応用のブレークスルーを意味するかもしれない。
我々は、2017年からの子どもの音声認識に関する研究を再考し、実際に性能が向上したことを示す。
転写はまだ完璧ではないが、最高のモデルは文の60.3%を正しく認識し、小さな文法的な違いを抑える。
論文 参考訳(メタデータ) (2024-04-26T13:14:28Z) - Adaptation of Whisper models to child speech recognition [3.2548794659022398]
幼児音声におけるWhisperの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
Wav2vec2モデルは、子どものスピーチで微調整され、Whisperの微調整よりも優れています。
論文 参考訳(メタデータ) (2023-07-24T12:54:45Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。