論文の概要: Automated Classification of Phonetic Segments in Child Speech Using Raw
Ultrasound Imaging
- arxiv url: http://arxiv.org/abs/2402.17482v1
- Date: Tue, 27 Feb 2024 13:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:25:54.973492
- Title: Automated Classification of Phonetic Segments in Child Speech Using Raw
Ultrasound Imaging
- Title(参考訳): Raw Ultrasound Imaging を用いた子音の音声セグメントの自動分類
- Authors: Saja Al Ani, Joanne Cleland, Ahmed Zoha
- Abstract要約: 音声障害 (SSD) は音声の発音の持続的障害であり、音声の明瞭さの低下と言語コミュニケーションの妨げとなる。
本研究では,超音波舌画像(UTI)とディープラーニングモデルを統合する技術ソリューションを提案する。
導入されたFusionNetモデルは、UTIデータを抽出したテクスチャ特徴と組み合わせてUTIを分類する。
- 参考スコア(独自算出の注目度): 0.0716879432974126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech sound disorder (SSD) is defined as a persistent impairment in speech
sound production leading to reduced speech intelligibility and hindered verbal
communication. Early recognition and intervention of children with SSD and
timely referral to speech and language therapists (SLTs) for treatment are
crucial. Automated detection of speech impairment is regarded as an efficient
method for examining and screening large populations. This study focuses on
advancing the automatic diagnosis of SSD in early childhood by proposing a
technical solution that integrates ultrasound tongue imaging (UTI) with
deep-learning models. The introduced FusionNet model combines UTI data with the
extracted texture features to classify UTI. The overarching aim is to elevate
the accuracy and efficiency of UTI analysis, particularly for classifying
speech sounds associated with SSD. This study compared the FusionNet approach
with standard deep-learning methodologies, highlighting the excellent
improvement results of the FusionNet model in UTI classification and the
potential of multi-learning in improving UTI classification in speech therapy
clinics.
- Abstract(参考訳): 音声障害 (SSD) は, 音声の持続的障害として定義され, 音声の明瞭度が低下し, 言語コミュニケーションが阻害される。
早期のssd児の認識と介入と、治療のための言語療法士(slts)へのタイムリーな紹介が重要である。
音声障害の自動検出は, 集団を検査・スクリーニングする効率的な手法であると考えられる。
本研究は、超音波舌画像(UTI)とディープラーニングモデルを統合する技術ソリューションを提案し、幼児期におけるSSDの自動診断の進歩に焦点を当てた。
導入されたFusionNetモデルは、UTIデータを抽出したテクスチャ特徴と組み合わせてUTIを分類する。
本研究の目的は,UTI分析の精度と効率を高めることであり,特にSSDに関連する音声の分類である。
本研究は、FusionNetアプローチと標準ディープラーニング手法を比較し、UTI分類におけるFusionNetモデルの優れた改善結果と、音声治療クリニックにおけるUTI分類の改善におけるマルチラーニングの可能性を強調した。
関連論文リスト
- Modality-Order Matters! A Novel Hierarchical Feature Fusion Method for CoSAm: A Code-Switched Autism Corpus [3.06952918690254]
本研究は,小児における早期ASD検出の促進を目的とした,新しい階層的特徴融合法を提案する。
この手法は、コードスイッチされた音声コーパスであるCoSAmを、ASDと一致した制御グループと診断された子供から収集する。
このデータセットは、ASDと診断された30人の子供から61人の音声記録と、神経型児から31人の音声記録を含んでおり、3歳から13歳の間である。
論文 参考訳(メタデータ) (2024-07-19T14:06:01Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。