論文の概要: L2 proficiency assessment using self-supervised speech representations
- arxiv url: http://arxiv.org/abs/2211.08849v1
- Date: Wed, 16 Nov 2022 11:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:59:47.128020
- Title: L2 proficiency assessment using self-supervised speech representations
- Title(参考訳): 自己教師型音声表現を用いたL2習熟度評価
- Authors: Stefano Bann\`o, Kate M. Knill, Marco Matassoni, Vyas Raina, Mark J.
F. Gales
- Abstract要約: 本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
- 参考スコア(独自算出の注目度): 35.70742768910494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a growing demand for automated spoken language assessment
systems in recent years. A standard pipeline for this process is to start with
a speech recognition system and derive features, either hand-crafted or based
on deep-learning, that exploit the transcription and audio. Though these
approaches can yield high performance systems, they require speech recognition
systems that can be used for L2 speakers, and preferably tuned to the specific
form of test being deployed. Recently a self-supervised speech representation
based scheme, requiring no speech recognition, was proposed. This work extends
the initial analysis conducted on this approach to a large scale proficiency
test, Linguaskill, that comprises multiple parts, each designed to assess
different attributes of a candidate's speaking proficiency. The performance of
the self-supervised, wav2vec 2.0, system is compared to a high performance
hand-crafted assessment system and a BERT-based text system both of which use
speech transcriptions. Though the wav2vec 2.0 based system is found to be
sensitive to the nature of the response, it can be configured to yield
comparable performance to systems requiring a speech transcription, and yields
gains when appropriately combined with standard approaches.
- Abstract(参考訳): 近年,音声自動評価システムに対する需要が高まっている。
このプロセスの標準的なパイプラインは、音声認識システムから始まり、手書きまたはディープラーニングに基づく、書き起こしとオーディオを利用する特徴を導出することである。
これらのアプローチは高性能システムをもたらす可能性があるが、l2スピーカーに使用できる音声認識システムが必要であり、好ましくはデプロイされるテストの特定の形態に合わせて調整される。
近年,音声認識不要な自己教師あり音声表現方式が提案されている。
この研究は、このアプローチで行った初期分析を、複数の部分からなる大規模熟練度テスト(linguaskill)に拡張し、それぞれが候補の発話能力の異なる特性を評価するように設計されている。
自己教師型wav2vec 2.0システムの性能は、高パフォーマンスの手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることが判明しているが、音声転写を必要とするシステムと同等の性能を得られるように構成することができ、標準アプローチと適切に組み合わせると得られる。
関連論文リスト
- Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment [1.0359008237358598]
失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。
本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。
我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
論文 参考訳(メタデータ) (2023-07-06T21:10:50Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Mixtures of Deep Neural Experts for Automated Speech Scoring [11.860560781894458]
本論文は,言語学習者の音声応答からテストプロンプトに対する第二言語能力の自動評価の課題に対処する。
本手法は,(1)音声対話のテキスト書き起こしを自動生成する音声認識システム,(2)テキスト書き起こしを習熟クラスに分類する深層学習者に基づく複数分類システム,の2つの異なるモジュールに依存している。
論文 参考訳(メタデータ) (2021-06-23T15:44:50Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。