論文の概要: Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss
Function for Automatic Pronunciation Assessment
- arxiv url: http://arxiv.org/abs/2310.01839v2
- Date: Wed, 4 Oct 2023 06:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 10:17:42.724638
- Title: Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss
Function for Automatic Pronunciation Assessment
- Title(参考訳): 正規回帰のための音韻識別:自動発音評価のための新しい損失関数
- Authors: Bi-Cheng Yan, Hsin-Wei Wang, Yi-Cheng Wang, Jiun-Ting Li, Chi-Han Lin,
Berlin Chen
- Abstract要約: 回帰に基づくAPAモデルの学習のための音素コントラストオーディショナル(PCO)損失を提案する。
具体的には、MSE損失に音素識別正則化器を導入し、異なる音素カテゴリの特徴表現を遠方へ誘導する。
speechocean762ベンチマークデータセットで行った広範な実験結果から,本モデルの有効性と有効性が示唆された。
- 参考スコア(独自算出の注目度): 10.844822448167937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic pronunciation assessment (APA) manages to quantify the
pronunciation proficiency of a second language (L2) learner in a language.
Prevailing approaches to APA normally leverage neural models trained with a
regression loss function, such as the mean-squared error (MSE) loss, for
proficiency level prediction. Despite most regression models can effectively
capture the ordinality of proficiency levels in the feature space, they are
confronted with a primary obstacle that different phoneme categories with the
same proficiency level are inevitably forced to be close to each other,
retaining less phoneme-discriminative information. On account of this, we
devise a phonemic contrast ordinal (PCO) loss for training regression-based APA
models, which aims to preserve better phonemic distinctions between phoneme
categories meanwhile considering ordinal relationships of the regression target
output. Specifically, we introduce a phoneme-distinct regularizer into the MSE
loss, which encourages feature representations of different phoneme categories
to be far apart while simultaneously pulling closer the representations
belonging to the same phoneme category by means of weighted distances. An
extensive set of experiments carried out on the speechocean762 benchmark
dataset suggest the feasibility and effectiveness of our model in relation to
some existing state-of-the-art models.
- Abstract(参考訳): 自動発音評価(APA)は、第2言語(L2)学習者の発音習熟度を言語内で定量化する。
APAに対する一般的なアプローチは、平均二乗誤差(MSE)損失などの回帰損失関数で訓練されたニューラルネットワークを、習熟度予測に活用する。
ほとんどの回帰モデルは、機能空間における熟練度レベルの順序性を効果的に捉えることができるが、同じ熟練度レベルの異なる音素カテゴリが必然的に互いに近付くことを強制され、音素識別情報が少なくなるという主要な障害に直面している。
そこで,本研究では,音素カテゴリ間の音韻区別を良好に保ちつつ,回帰目標出力の順序関係を考慮し,回帰に基づくapaモデルの学習のための音韻コントラストオーディナル(pco)ロスを考案する。
具体的には,重み付き距離を用いて同一音素カテゴリに属する表現を近づけると同時に,異なる音素カテゴリの特徴表現を遠方から分離することを奨励するmse損失に音素分割正規化器を導入する。
speechocean762ベンチマークデータセットで行った広範囲な実験は、既存の最先端モデルに関連して、モデルの有効性と有効性を示している。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition [21.61242091927018]
トレンディングワードや新しい名前を持つエンティティなど、Of-Vocabulary以外の単語は、現代のASRシステムに問題を引き起こす。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
論文 参考訳(メタデータ) (2023-02-20T02:21:30Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - A Brief Study on the Effects of Training Generative Dialogue Models with
a Semantic loss [37.8626106992769]
本研究は,モデルが相互に反応し,セマンティックな類似度にスコア付けするための学習目標を最小化する効果について考察する。
目標指向対話における次の発話生成タスクにおける2つの異なるデータセットについて、このアイデアを探求する。
論文 参考訳(メタデータ) (2021-06-20T04:39:29Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Analysis of Predictive Coding Models for Phonemic Representation
Learning in Small Datasets [0.0]
本研究では,音素識別タスクにおける2つの予測符号化モデル,自動回帰予測符号化とコントラスト予測符号化の挙動について検討した。
実験の結果, 自己回帰損失と音素識別スコアとの間には, 強い相関関係が認められた。
CPCモデルは、トレーニングデータを渡した後既に急速に収束しており、平均すると、その表現は両方の言語でのAPCよりも優れています。
論文 参考訳(メタデータ) (2020-07-08T15:46:13Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。