論文の概要: Towards Real-time Mispronunciation Detection in Kids' Speech
- arxiv url: http://arxiv.org/abs/2003.01765v1
- Date: Tue, 3 Mar 2020 19:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 23:20:17.650035
- Title: Towards Real-time Mispronunciation Detection in Kids' Speech
- Title(参考訳): 子どもの音声におけるリアルタイム誤認識検出に向けて
- Authors: Peter Plantinga, Eric Fosler-Lussier
- Abstract要約: 現代の誤発音検出・診断システムでは,ディープラーニングの導入により精度が著しく向上している。
特に、最先端技術は双方向のリカレントネットワークを使用し、一方向ネットワークの方が適している可能性がある。
モデルのアライメントを改善するために2つの損失項を試すことにより、この制限に対処する。
- 参考スコア(独自算出の注目度): 19.17617301462919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern mispronunciation detection and diagnosis systems have seen significant
gains in accuracy due to the introduction of deep learning. However, these
systems have not been evaluated for the ability to be run in real-time, an
important factor in applications that provide rapid feedback. In particular,
the state-of-the-art uses bi-directional recurrent networks, where a
uni-directional network may be more appropriate. Teacher-student learning is a
natural approach to use to improve a uni-directional model, but when using a
CTC objective, this is limited by poor alignment of outputs to evidence. We
address this limitation by trying two loss terms for improving the alignments
of our models. One loss is an "alignment loss" term that encourages outputs
only when features do not resemble silence. The other loss term uses a
uni-directional model as teacher model to align the bi-directional model. Our
proposed model uses these aligned bi-directional models as teacher models.
Experiments on the CSLU kids' corpus show that these changes decrease the
latency of the outputs, and improve the detection rates, with a trade-off
between these goals.
- Abstract(参考訳): 現代の誤発音検出・診断システムでは,ディープラーニングの導入により精度が著しく向上している。
しかし、これらのシステムは、迅速なフィードバックを提供するアプリケーションにおいて重要な要素であるリアルタイムに実行される能力について評価されていない。
特に、最先端技術は双方向のリカレントネットワークを使用し、一方向ネットワークの方が適切かもしれない。
教師-学生学習は、一方向モデルを改善するための自然なアプローチであるが、CTCの目的を使用する場合、これは証拠に対する出力の整合性の低下によって制限される。
モデルのアライメントを改善するために2つの損失項を試すことにより、この制限に対処する。
1つの損失は、特徴が沈黙に似ていない場合にのみ出力を奨励する「割当損失」の用語である。
もう1つの損失項は、双方向モデルを調整するために教師モデルとして一方向モデルを用いる。
提案モデルでは,教師モデルとして2方向モデルを用いた。
CSLUキッズコーパスの実験では,これらの変化によって出力の遅延が減少し,検出速度が向上し,目標間のトレードオフが見られた。
関連論文リスト
- Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - Towards Causal Deep Learning for Vulnerability Detection [31.59558109518435]
ソフトウェア工学モデルに計算に基づく因果学習を導入する。
以上の結果から,CausalVulはモデル精度,ロバスト性,OOD性能を一貫して改善した。
論文 参考訳(メタデータ) (2023-10-12T00:51:06Z) - Deep Attentive Time Warping [22.411355064531143]
タスク適応時間ワープのためのニューラルネットワークモデルを提案する。
我々は、バイパーティイトアテンションモデルと呼ばれるアテンションモデルを用いて、明示的な時間ゆらぎメカニズムを開発する。
DTWをワープに使用する他の学習可能なモデルとは異なり、我々のモデルは2つの時系列間のすべての局所的対応を予測する。
論文 参考訳(メタデータ) (2023-09-13T04:49:49Z) - From Hope to Safety: Unlearning Biases of Deep Models via Gradient
Penalization in Latent Space [13.763716495058294]
ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。
これは、医療応用など、高い意思決定のためにこれらのモデルをデプロイする際のリスクを生じさせる。
本稿では,勾配のペナル化によるバイアスに対するモデル感度を明示的に低減する,概念レベルでのモデル補正手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T10:07:46Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Utilizing XAI technique to improve autoencoder based model for computer
network anomaly detection with shapley additive explanation(SHAP) [0.0]
機械学習(ML)とディープラーニング(DL)メソッドは、特にコンピュータネットワークセキュリティにおいて急速に採用されている。
MLとDLベースのモデルの透明性の欠如は、実装の大きな障害であり、ブラックボックスの性質から批判されている。
XAIは、これらのモデルの信頼性を向上させる上で、説明やアウトプットの解釈を通じて有望な分野である。
論文 参考訳(メタデータ) (2021-12-14T09:42:04Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。