論文の概要: Deep Learning-based automated classification of Chinese Speech Sound
Disorders
- arxiv url: http://arxiv.org/abs/2205.11748v1
- Date: Tue, 24 May 2022 03:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:03:09.789117
- Title: Deep Learning-based automated classification of Chinese Speech Sound
Disorders
- Title(参考訳): 深層学習に基づく中国語音声障害の自動分類
- Authors: Yao-Ming Kuo, Shanq-Jang Ruan, Yu-Chin Chen, Ya-Wen Tu
- Abstract要約: 本稿では,コンピュータを用いた子どもの発話障害の診断・分類を支援するために,音響データを解析するシステムについて述べる。
この分析は、中国の4つの異なるタイプのミスコンストラクションを特定し、分類することに集中した。
- 参考スコア(独自算出の注目度): 3.4314628858361496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This article describes a system for analyzing acoustic data in order to
assist in the diagnosis and classification of children's speech disorders using
a computer. The analysis concentrated on identifying and categorizing four
distinct types of Chinese misconstructions. The study collected and generated a
speech corpus containing 2540 Stopping, Velar, Consonant-vowel, and Affricate
samples from 90 children aged 3-6 years with normal or pathological
articulatory features. Each recording was accompanied by a detailed annotation
from the field of speech therapy. Classification of the speech samples was
accomplished using three well-established neural network models for image
classification. The feature maps are created using three sets of MFCC
parameters extracted from speech sounds and aggregated into a three-dimensional
data structure as model input. We employ six techniques for data augmentation
in order to augment the available dataset while avoiding over-simulation. The
experiments examine the usability of four different categories of Chinese
phrases and characters. Experiments with different data subsets demonstrate the
system's ability to accurately detect the analyzed pronunciation disorders.
- Abstract(参考訳): 本稿では,子どもの言語障害の診断と分類を支援するために,コンピュータを用いて音響データを解析するシステムについて述べる。
分析は4つの異なる中国のミスコンストラクションを識別し分類することに集中した。
本研究は,3~6歳児の正常・病的構音特徴を有する90例から,2540例の停止音,小声帯,子音母音,失語音を含む音声コーパスを収集・生成した。
各録音には音声療法の分野からの詳細な注釈が添えられた。
画像分類のための3つの確立されたニューラルネットワークモデルを用いて音声サンプルの分類を行った。
特徴マップは、音声から抽出された3組のMFCCパラメータを用いて作成され、モデル入力として三次元データ構造に集約される。
我々は、過剰なシミュレーションを避けつつ利用可能なデータセットを増強するために、データ拡張のための6つの技術を用いる。
実験では、中国語の句と文字の4つの異なるカテゴリのユーザビリティについて検討した。
異なるデータサブセットを用いた実験は、分析された発音障害を正確に検出するシステムの能力を示す。
関連論文リスト
- Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Responding to Challenge Call of Machine Learning Model Development in
Diagnosing Respiratory Disease Sounds [0.0]
疾患診断において,くしゃみやうしゃみなどの呼吸系音を自動的に検出する機械学習モデルを開発した。
3つの異なる分類手法が3800以上の異なる音を含むデータセットにおいて呼吸音の分類に成功していると考えられた。
音質を分類し、他の音から音を嗅ぐ試みとして、RBFカーネルを搭載したSVMが83%の成功で達成された。
論文 参考訳(メタデータ) (2021-11-29T07:18:36Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Data-driven Detection and Analysis of the Patterns of Creaky Voice [13.829936505895692]
クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。
難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2020-05-31T13:34:30Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。