論文の概要: Modality-Order Matters! A Novel Hierarchical Feature Fusion Method for CoSAm: A Code-Switched Autism Corpus
- arxiv url: http://arxiv.org/abs/2407.14328v1
- Date: Fri, 19 Jul 2024 14:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:15:09.229716
- Title: Modality-Order Matters! A Novel Hierarchical Feature Fusion Method for CoSAm: A Code-Switched Autism Corpus
- Title(参考訳): Modality-Order Matters! CoSAmのための新しい階層的特徴融合法:コード変換自閉症コーパス
- Authors: Mohd Mujtaba Akhtar, Girish, Muskaan Singh, Orchid Chetia Phukan,
- Abstract要約: 本研究は,小児における早期ASD検出の促進を目的とした,新しい階層的特徴融合法を提案する。
この手法は、コードスイッチされた音声コーパスであるCoSAmを、ASDと一致した制御グループと診断された子供から収集する。
このデータセットは、ASDと診断された30人の子供から61人の音声記録と、神経型児から31人の音声記録を含んでおり、3歳から13歳の間である。
- 参考スコア(独自算出の注目度): 3.06952918690254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autism Spectrum Disorder (ASD) is a complex neuro-developmental challenge, presenting a spectrum of difficulties in social interaction, communication, and the expression of repetitive behaviors in different situations. This increasing prevalence underscores the importance of ASD as a major public health concern and the need for comprehensive research initiatives to advance our understanding of the disorder and its early detection methods. This study introduces a novel hierarchical feature fusion method aimed at enhancing the early detection of ASD in children through the analysis of code-switched speech (English and Hindi). Employing advanced audio processing techniques, the research integrates acoustic, paralinguistic, and linguistic information using Transformer Encoders. This innovative fusion strategy is designed to improve classification robustness and accuracy, crucial for early and precise ASD identification. The methodology involves collecting a code-switched speech corpus, CoSAm, from children diagnosed with ASD and a matched control group. The dataset comprises 61 voice recordings from 30 children diagnosed with ASD and 31 from neurotypical children, aged between 3 and 13 years, resulting in a total of 159.75 minutes of voice recordings. The feature analysis focuses on MFCCs and extensive statistical attributes to capture speech pattern variability and complexity. The best model performance is achieved using a hierarchical fusion technique with an accuracy of 98.75% using a combination of acoustic and linguistic features first, followed by paralinguistic features in a hierarchical manner.
- Abstract(参考訳): 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は複雑な神経発達障害であり、社会的相互作用、コミュニケーション、そして異なる状況における反復行動の表現において困難を呈する。
この頻度の増大は、主要な公衆衛生問題としてのASDの重要性と、障害とその早期発見方法の理解を深めるための総合的な研究イニシアチブの必要性を浮き彫りにしている。
本研究は, 音声のコードスイッチング(英語とヒンディー語)の分析を通じて, 幼児の早期ASD検出を促進するための新しい階層的特徴融合手法を提案する。
高度なオーディオ処理技術を用いて、トランスフォーマーエンコーダを用いた音響情報、パラ言語情報、言語情報を統合する。
この革新的な融合戦略は、分類の堅牢性と正確性を改善するために設計されており、早期かつ正確なSD識別に不可欠である。
この手法は、コードスイッチされた音声コーパスであるCoSAmを、ASDと一致した制御グループと診断された子供から収集する。
このデータセットは、ALDと診断された30人の子供から61人の音声記録と、3歳から13歳までの神経型児から31人の音声記録からなり、合計159.75分間の音声記録が得られた。
この特徴分析は、音声パターンの多様性と複雑さを捉えるために、MFCCと広範な統計属性に焦点を当てている。
最良のモデル性能は、まず音響的特徴と言語学的特徴の組み合わせを用いて98.75%の精度で階層的融合法を用いて達成され、次いで階層的手法でパラ言語的特徴を呈する。
関連論文リスト
- Script-centric behavior understanding for assisted autism spectrum disorder diagnosis [6.198128116862245]
本研究は,コンピュータビジョン技術と大規模言語モデル(LLM)を用いて,自閉症スペクトラム障害(ASD)を自動的に検出することに焦点を当てる。
我々のパイプラインは、動画コンテンツを文字の振る舞いを記述したスクリプトに変換し、大きな言語モデルの一般化性を活用してゼロショットまたは少数ショットでSDを検出する。
平均年齢24か月の小児におけるASDの診断精度は92.00%であり,教師あり学習法の性能は3.58%以上である。
論文 参考訳(メタデータ) (2024-11-14T13:07:19Z) - Developing an End-to-End Framework for Predicting the Social Communication Severity Scores of Children with Autism Spectrum Disorder [6.197934754799159]
本稿では、生音声データから、ASDを持つ子どもの社会的コミュニケーションの重症度を自動的に予測するエンドツーエンドフレームワークを提案する。
ピアソン相関係数の0.6566と人間評価スコアを達成し,ASD評価のためのアクセシブルで客観的なツールとしての可能性を示した。
論文 参考訳(メタデータ) (2024-08-30T14:43:58Z) - Enhancing Autism Spectrum Disorder Early Detection with the Parent-Child Dyads Block-Play Protocol and an Attention-enhanced GCN-xLSTM Hybrid Deep Learning Framework [6.785167067600156]
本研究は,ASDと発達幼児を区別する行動パターンを識別するための,親子ダイズブロックプレイ(PCB)プロトコルを提案する。
40人のASDと89人のTD幼児が親とのブロックプレイに従事している。
このデータセットは、参加者の規模と個々のセッションの長さの両方に関する以前の取り組みを上回る。
論文 参考訳(メタデータ) (2024-08-29T21:53:01Z) - Ensemble Modeling of Multiple Physical Indicators to Dynamically Phenotype Autism Spectrum Disorder [3.6630139570443996]
自閉症スペクトラム障害(ASD)に関連する表現型マーカーを検出するためのコンピュータビジョンモデルをトレーニングするためのデータセットを提供する。
視線,頭位,顔のランドマークを入力として,LSTMを用いた個別モデルを訓練し,テストAUCは86%,67%,78%であった。
論文 参考訳(メタデータ) (2024-08-23T17:55:58Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Hybrid Attention for Automatic Segmentation of Whole Fetal Head in
Prenatal Ultrasound Volumes [52.53375964591765]
胎児の頭部全体を米国全巻に分割する,最初の完全自動化ソリューションを提案する。
セグメント化タスクは、まずエンコーダ-デコーダディープアーキテクチャの下で、エンドツーエンドのボリュームマッピングとして定式化される。
次に,セグメンタとハイブリットアテンションスキーム(HAS)を組み合わせることで,識別的特徴を選択し,非情報量的特徴を抑える。
論文 参考訳(メタデータ) (2020-04-28T14:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。