論文の概要: Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring
- arxiv url: http://arxiv.org/abs/2305.11438v1
- Date: Fri, 19 May 2023 05:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:13:14.339178
- Title: Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring
- Title(参考訳): 韻律的・韻律的自己教師付き学習手法による非母語流束スコアリング
- Authors: Kaiqi Fu, Shaojun Gao, Shuju Shi, Xiaohai Tian, Wei Li, Zejun Ma
- Abstract要約: 音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
- 参考スコア(独自算出の注目度): 13.817385516193445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech fluency/disfluency can be evaluated by analyzing a range of phonetic
and prosodic features. Deep neural networks are commonly trained to map
fluency-related features into the human scores. However, the effectiveness of
deep learning-based models is constrained by the limited amount of labeled
training samples. To address this, we introduce a self-supervised learning
(SSL) approach that takes into account phonetic and prosody awareness for
fluency scoring. Specifically, we first pre-train the model using a
reconstruction loss function, by masking phones and their durations jointly on
a large amount of unlabeled speech and text prompts. We then fine-tune the
pre-trained model using human-annotated scoring data. Our experimental results,
conducted on datasets such as Speechocean762 and our non-native datasets, show
that our proposed method outperforms the baseline systems in terms of Pearson
correlation coefficients (PCC). Moreover, we also conduct an ablation study to
better understand the contribution of phonetic and prosody factors during the
pre-training stage.
- Abstract(参考訳): 音韻的特徴と韻律的特徴を解析することにより、音声のフルーレンス/ディフルエンシーを評価することができる。
ディープニューラルネットワークは一般的に、フラレンシーに関連する特徴を人間のスコアにマッピングするために訓練される。
しかし、深層学習モデルの有効性はラベル付きトレーニングサンプルの限られた量によって制限されている。
そこで本稿では,音声と韻律の認識を考慮した自己教師型学習(SSL)手法を提案する。
具体的には,大量のラベルなし音声とテキストプロンプトで携帯電話とその継続時間を同時にマスキングすることで,復元損失関数を用いてモデルを事前学習した。
次に、人間の注釈スコアデータを用いて事前学習したモデルを微調整する。
本研究では,pearson correlation coefficients (pcc) を用いて,提案手法がベースラインシステムを上回ることを示す。
また,前訓練段階における音声的および韻律的要因の寄与をよりよく理解するために,アブレーション研究を行った。
関連論文リスト
- Deep Learning for Assessment of Oral Reading Fluency [5.707725771108279]
本研究は,人間専門家がラベル付けした物語テキストの子どもの音声記録の学習データセットのエンドツーエンドモデリングについて検討する。
本報告では,学習した語彙・音響・韻律的特徴の埋め込みが,読み流しの知覚に重要であることを示す。
論文 参考訳(メタデータ) (2024-05-29T18:09:35Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Self-Adaptive Training: Bridging the Supervised and Self-Supervised
Learning [16.765461276790944]
自己適応型トレーニングは、追加の計算コストを課すことなく、モデル予測によってトレーニングプロセスを動的にキャリブレーションし、強化する統一型トレーニングアルゴリズムです。
ランダムノイズや敵対的な例など、破損したトレーニングデータの深層ネットワークのトレーニングダイナミクスを分析します。
分析の結果, モデル予測はデータ中の有用な情報量を拡大することが可能であり, 強調ラベル情報がない場合にも広く発生することがわかった。
論文 参考訳(メタデータ) (2021-01-21T17:17:30Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Embodied Self-supervised Learning by Coordinated Sampling and Training [14.107020105091662]
本稿では, 逆問題に対して, 対応する物理フォワードプロセスを用いて, 自己教師型アプローチを提案する。
提案手法は、反復的なサンプリングとトレーニングによって推論ネットワークを学習するために、分析バイシンセシス方式で動作する。
音声から調音情報を推測するために,音響-調音インバージョン問題に対処することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-20T14:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。