論文の概要: Investigating data partitioning strategies for crosslinguistic
low-resource ASR evaluation
- arxiv url: http://arxiv.org/abs/2208.12888v1
- Date: Fri, 26 Aug 2022 23:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:27:50.608222
- Title: Investigating data partitioning strategies for crosslinguistic
low-resource ASR evaluation
- Title(参考訳): クロス言語的低リソースASR評価のためのデータ分割戦略の検討
- Authors: Zoey Liu, Justin Spence, Emily Prud'hommeaux
- Abstract要約: 本研究では,ASR学習リソースが最小限である5言語に対して,10種類のデータ分割手法について検討した。
モデルの性能は,テスト対象の話者によって大きく異なることがわかった。
これらの結果は、ASRデータパーティショニングに広く用いられているホルダーアウトアプローチが、目に見えないデータや話者のモデル性能を反映しない結果をもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 6.373475734777816
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Many automatic speech recognition (ASR) data sets include a single
pre-defined test set consisting of one or more speakers whose speech never
appears in the training set. This "hold-speaker(s)-out" data partitioning
strategy, however, may not be ideal for data sets in which the number of
speakers is very small. This study investigates ten different data split
methods for five languages with minimal ASR training resources. We find that
(1) model performance varies greatly depending on which speaker is selected for
testing; (2) the average word error rate (WER) across all held-out speakers is
comparable not only to the average WER over multiple random splits but also to
any given individual random split; (3) WER is also generally comparable when
the data is split heuristically or adversarially; (4) utterance duration and
intensity are comparatively more predictive factors of variability regardless
of the data split. These results suggest that the widely used hold-speakers-out
approach to ASR data partitioning can yield results that do not reflect model
performance on unseen data or speakers. Random splits can yield more reliable
and generalizable estimates when facing data sparsity.
- Abstract(参考訳): 多くの自動音声認識(asr)データセットは、トレーニングセットに音声が現れない1つ以上の話者からなる、事前定義された単一のテストセットを含んでいる。
しかし、この"hold-speaker(s)-out"データ分割戦略は、話者数が非常に少ないデータセットには理想的ではないかもしれない。
本研究では,ASR学習リソースを最小化した5言語に対して,10種類のデータ分割手法を提案する。
We find that (1) model performance varies greatly depending on which speaker is selected for testing; (2) the average word error rate (WER) across all held-out speakers is comparable not only to the average WER over multiple random splits but also to any given individual random split; (3) WER is also generally comparable when the data is split heuristically or adversarially; (4) utterance duration and intensity are comparatively more predictive factors of variability regardless of the data split.
これらの結果は、ASRデータパーティショニングに広く用いられているホルダーアウトアプローチが、目に見えないデータや話者のモデル性能を反映しない結果をもたらすことを示唆している。
ランダム分割は、データ空間に直面するとき、より信頼性が高く、一般化可能な見積もりをもたらす。
関連論文リスト
- DENOASR: Debiasing ASRs through Selective Denoising [5.544079217915537]
本稿では,2つの性別グループ間の単語誤り率の相違を低減するために,選択的なデノケーション手法であるDeNOASRを提案する。
一般的な2つの音声認識手法である「DEMUCS」と「LE」を組み合わせることで、全体的な性能を損なうことなく、ASRの相違を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-10-22T05:39:24Z) - Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models [2.5168553347063862]
Fearless Steps APOLLO Community Resourceは、マルチスピーカーチームコミュニケーションの可能性を探るための例外のない機会を提供する。
本研究では,ASR(Automatic Speech Recognition, 自動音声認識)手法により, アポロの録音を多かれ少なかれ理解しやすくする特徴を明らかにすることに焦点を当てた。
論文 参考訳(メタデータ) (2024-03-31T10:06:19Z) - Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised
Speech Models [13.956691231452336]
自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。
本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
論文 参考訳(メタデータ) (2022-12-03T18:05:08Z) - Beyond Random Split for Assessing Statistical Model Performance [0.0]
予測器の多様性に基づいて、トレーニングとテストセットを分割する戦略を分析する。
このような戦略は、人口の代表性が最小限に抑えられた珍しい例や珍しい例を取り入れることを保証することを目的としている。
予備的な結果はモンテカルロ分割戦略に3つの代替戦略を適用することの重要性を示した。
論文 参考訳(メタデータ) (2022-09-04T22:24:35Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。