論文の概要: An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution
- arxiv url: http://arxiv.org/abs/2404.07575v1
- Date: Thu, 11 Apr 2024 09:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:29:24.117059
- Title: An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution
- Title(参考訳): データスカシティと不均衡分布の緩和のための効果的な発話評価手法
- Authors: Tien-Hong Lo, Fu-An Chao, Tzu-I Wu, Yao-Ting Sung, Berlin Chen,
- Abstract要約: 自己教師付き学習(SSL)は、従来の手法と比較して星級のパフォーマンスを示している。
しかし、SSLベースのASAシステムは、少なくとも3つのデータ関連の課題に直面している。
これらの課題には、限られた注釈付きデータ、学習者の習熟度レベルの不均一分布、CEFR習熟度レベル間の不均一スコア間隔が含まれる。
- 参考スコア(独自算出の注目度): 5.1660803395535835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated speaking assessment (ASA) typically involves automatic speech recognition (ASR) and hand-crafted feature extraction from the ASR transcript of a learner's speech. Recently, self-supervised learning (SSL) has shown stellar performance compared to traditional methods. However, SSL-based ASA systems are faced with at least three data-related challenges: limited annotated data, uneven distribution of learner proficiency levels and non-uniform score intervals between different CEFR proficiency levels. To address these challenges, we explore the use of two novel modeling strategies: metric-based classification and loss reweighting, leveraging distinct SSL-based embedding features. Extensive experimental results on the ICNALE benchmark dataset suggest that our approach can outperform existing strong baselines by a sizable margin, achieving a significant improvement of more than 10% in CEFR prediction accuracy.
- Abstract(参考訳): 自動発話アセスメント(ASA)は通常、自動音声認識(ASR)と学習者の音声のASR書き起こしから手作りの特徴抽出を含む。
近年,自己教師付き学習(SSL)は,従来の手法に比べて高い性能を示している。
しかし、SSLベースのASAシステムは、限られたアノテートデータ、学習者の習熟度の不均一分布、CEFR習熟度間の不均一スコア間隔という、少なくとも3つのデータ関連課題に直面している。
これらの課題に対処するために、メトリックベースの分類と損失再重み付けという、2つの新しいモデリング戦略について検討する。
ICNALEベンチマークデータセットの大規模な実験結果から,提案手法は既存の強いベースラインを大きなマージンで上回り,CEFR予測精度が10%以上向上する可能性が示唆された。
関連論文リスト
- A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Knowledge Transfer from Pre-trained Language Models to Cif-based Speech
Recognizers via Hierarchical Distillation [22.733285434532068]
大規模事前学習型言語モデル(PLM)は、自然言語処理タスクにおいて大きな可能性を示している。
本稿では,CIFモデルに基づく階層的知識蒸留(HKD)を提案する。
従来のCIFモデルと比較すると,AISHELL-1とLibriSpeechのデータセットに対して15%と9%の相対誤差率削減を実現している。
論文 参考訳(メタデータ) (2023-01-30T15:44:55Z) - Analyzing the factors affecting usefulness of Self-Supervised
Pre-trained Representations for Speech Recognition [1.0705399532413615]
高レベルの音声表現を学習するための自己教師付き学習(SSL)は、音声認識システムを構築するための一般的なアプローチである。
ドメイン、言語、データセットサイズ、および上流のトレーニング済みSSLデータに対するその他の側面が、最終性能の低リソースのASRタスクに与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-31T11:48:24Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Boosting the Generalization Capability in Cross-Domain Few-shot Learning
via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。
NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。
また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文 参考訳(メタデータ) (2021-08-11T04:45:56Z) - A Realistic Evaluation of Semi-Supervised Learning for Fine-Grained
Classification [38.68079253627819]
本ベンチマークは, avesおよびfungi分類のクラスをサンプリングして得られた2つの細粒度分類データセットからなる。
最近提案されたSSLメソッドは大きなメリットをもたらし、深いネットワークがゼロから訓練されたときにクラス外のデータを効果的にパフォーマンスを向上させることができます。
我々の研究は、現実的データセットの専門家による半教師付き学習は、現在文学で普及しているものとは異なる戦略を必要とする可能性があることを示唆している。
論文 参考訳(メタデータ) (2021-04-01T17:59:41Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Generic Semi-Supervised Adversarial Subject Translation for Sensor-Based
Human Activity Recognition [6.2997667081978825]
本稿では,人間活動認識における半教師付きドメイン適応のための,新しい汎用的で堅牢なアプローチを提案する。
本手法は,対象対象対象と対象対象対象対象からのみ注釈付きサンプルからの知識を活用することにより,問題点に対処するための敵対的枠組みの利点を生かしている。
その結果,提案手法が最先端手法に対して有効であることを示し,オポチュニティ,LISSI,PAMAP2データセットの高レベルのアクティビティ認識指標を最大13%,4%,13%改善した。
論文 参考訳(メタデータ) (2020-11-11T12:16:23Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。