論文の概要: Improving Non-native Word-level Pronunciation Scoring with Phone-level
Mixup Data Augmentation and Multi-source Information
- arxiv url: http://arxiv.org/abs/2203.01826v1
- Date: Tue, 1 Mar 2022 05:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 14:04:50.337198
- Title: Improving Non-native Word-level Pronunciation Scoring with Phone-level
Mixup Data Augmentation and Multi-source Information
- Title(参考訳): 電話レベルの混合データ拡張とマルチソース情報による非ネイティブな単語レベルの発音スコーリングの改善
- Authors: Kaiqi Fu, Shaojun Gao, Kai Wang, Wei Li, Xiaohai Tian, Zejun Ma
- Abstract要約: そこで本稿では, 単語レベルの発音性能を向上させるために, 簡易で効果的なデータ拡張手法である電話レベルのミキサアップを提案する。
我々は、マルチソース情報(例えば、MFCCとディープ特徴)を使用して、スコアリングシステムの性能をさらに向上する。
- 参考スコア(独自算出の注目度): 15.72173704767198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-based pronunciation scoring models highly rely on the
availability of the annotated non-native data, which is costly and has
scalability issues. To deal with the data scarcity problem, data augmentation
is commonly used for model pretraining. In this paper, we propose a phone-level
mixup, a simple yet effective data augmentation method, to improve the
performance of word-level pronunciation scoring. Specifically, given a phoneme
sequence from lexicon, the artificial augmented word sample can be generated by
randomly sampling from the corresponding phone-level features in training data,
while the word score is the average of their GOP scores. Benefit from the
arbitrary phone-level combination, the mixup is able to generate any word with
various pronunciation scores. Moreover, we utilize multi-source information
(e.g., MFCC and deep features) to further improve the scoring system
performance. The experiments conducted on the Speechocean762 show that the
proposed system outperforms the baseline by adding the mixup data for
pretraining, with Pearson correlation coefficients (PCC) increasing from 0.567
to 0.61. The results also indicate that proposed method achieves similar
performance by using 1/10 unlabeled data of baseline. In addition, the
experimental results also demonstrate the efficiency of our proposed
multi-source approach.
- Abstract(参考訳): ディープラーニングベースの発音スコアリングモデルは、注釈付き非ネイティブデータの可用性に大きく依存しています。
データ不足問題に対処するため、データ拡張はモデル事前トレーニングに一般的に使用される。
本稿では, 単語レベルの発音性能を向上させるため, 簡易で効果的なデータ拡張手法である電話レベルの混合手法を提案する。
具体的には、レキシコンから音素シーケンスが与えられると、学習データ中の対応する電話レベルの特徴からランダムにサンプリングして人工的な拡張語サンプルを生成することができ、単語スコアはgopスコアの平均となる。
任意の電話レベルの組み合わせにより、mixupは様々な発音スコアを持つ単語を生成できる。
さらに、マルチソース情報(例えば、MFCCやディープ機能)を用いて、スコアリングシステムの性能をさらに向上する。
speechocean762で行った実験により、本システムは、事前学習のための混合データを追加することでベースラインを上回っており、ピアソン相関係数 (pcc) は0.567から0.061に増加した。
また,提案手法はベースラインのラベル付き1/10データを用いて類似した性能を実現する。
さらに,提案手法の有効性を実証する実験を行った。
関連論文リスト
- Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - Contrastive-mixup learning for improved speaker verification [17.93491404662201]
本稿では,話者検証のためのミックスアップによるプロトタイプ損失の新しい定式化を提案する。
Mixupは、ランダムなデータポイントとラベルペアの重み付けを組み合わせた、シンプルだが効率的なデータ拡張技術である。
論文 参考訳(メタデータ) (2022-02-22T05:09:22Z) - A transfer learning based approach for pronunciation scoring [7.98890440106366]
携帯電話レベルの発音は、人間のアノテータよりもはるかにパフォーマンスが低い、難しい作業である。
標準システムは、ネイティブデータのみを持つ自動音声認識(ASR)のために訓練されたモデルを使用して、フレーズで各電話機にスコアを生成する。
本稿では、ASRで訓練されたモデルを活用し、発音評価のタスクに適応するトランスファー学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-01T14:37:06Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。