論文の概要: Speech Corpora Divergence Based Unsupervised Data Selection for ASR
- arxiv url: http://arxiv.org/abs/2302.13222v1
- Date: Sun, 26 Feb 2023 03:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:12:21.672818
- Title: Speech Corpora Divergence Based Unsupervised Data Selection for ASR
- Title(参考訳): asrのための教師なしデータ選択に基づく音声コーパス発散
- Authors: Changfeng Gao, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan
- Abstract要約: 本研究では,音声コーパス分散(SCD)に基づく教師なし目標認識データ選択手法を提案する。
実験により、提案したSCDデータ選択は、ランダム選択に対する14.8%の相対的な改善を実現できることが示された。
- 参考スコア(独自算出の注目度): 30.224456184969693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting application scenarios matching data is important for the automatic
speech recognition (ASR) training, but it is difficult to measure the matching
degree of the training corpus. This study proposes a unsupervised target-aware
data selection method based on speech corpora divergence (SCD), which can
measure the similarity between two speech corpora. We first use the
self-supervised Hubert model to discretize the speech corpora into label
sequence and calculate the N-gram probability distribution. Then we calculate
the Kullback-Leibler divergence between the N-grams as the SCD. Finally, we can
choose the subset which has minimum SCD to the target corpus for annotation and
training. Compared to previous data selection method, the SCD data selection
method can focus on more acoustic details and guarantee the diversity of the
selected set. We evaluate our method on different accents from Common Voice.
Experiments show that the proposed SCD data selection can realize 14.8%
relative improvements to the random selection, comparable or even superior to
the result of supervised selection.
- Abstract(参考訳): 自動音声認識(asr)訓練では,データマッチングを行うアプリケーションシナリオの選択が重要であるが,学習コーパスのマッチング度を測定することは困難である。
本研究では,2つの音声コーパス間の類似性を計測できる音声コーパス分散(SCD)に基づく教師なしデータ選択手法を提案する。
まず,自己教師付きヒューバートモデルを用いて音声コーパスをラベル列に識別し,n-gram確率分布を計算する。
次に、N-gram間のKullback-Leibler分散をSCDとして計算する。
最後に、アノテーションとトレーニングのためにターゲットコーパスに最小限のSCDを持つサブセットを選択することができる。
従来のデータ選択法と比較して、SCDデータ選択法はより音響的な詳細に集中し、選択した集合の多様性を保証することができる。
提案手法は共通音声と異なるアクセントで評価する。
実験により、提案されたSCDデータ選択は、ランダム選択に対する14.8%の相対的な改善を実現可能であることが示された。
関連論文リスト
- OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised
Speech Models [13.956691231452336]
自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。
本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
論文 参考訳(メタデータ) (2022-12-03T18:05:08Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Knowledge Distillation and Data Selection for Semi-Supervised Learning
in CTC Acoustic Models [9.496916045581736]
半教師付き学習 (SSL) は, 音声認識システムの精度を向上させるために, ラベルのないデータを活用することを目的とした研究の活発な領域である。
本研究の目的は, 不正データのプールからサンプルを選択する際に, 適切な基準が重要であることを確かめることである。
我々は、この疑問に答え、異なるサンプリング戦略の効果を定量化するために、異なるデータ選択方法の実証的研究を行う。
論文 参考訳(メタデータ) (2020-08-10T07:00:08Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。