Fugu-MT 論文翻訳(概要): Toward Knowledge-Driven Speech-Based Models of Depression: Leveraging Spectrotemporal Variations in Speech Vowels

論文の概要: Toward Knowledge-Driven Speech-Based Models of Depression: Leveraging Spectrotemporal Variations in Speech Vowels

arxiv url: http://arxiv.org/abs/2210.02527v1
Date: Wed, 5 Oct 2022 19:57:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 17:55:33.207171
Title: Toward Knowledge-Driven Speech-Based Models of Depression: Leveraging Spectrotemporal Variations in Speech Vowels
Title（参考訳）: 知識駆動型抑うつモデルに向けて:音声母音のスペクトル時間変動の活用
Authors: Kexin Feng and Theodora Chaspari
Abstract要約: 抑うつに関連する精神運動士の遅滞は、母音生成の有形差と関連付けられている。本稿では,母音レベルの音声のスペクトル時間情報を統合し,抑うつを識別する知識駆動機械学習(ML)手法について検討する。
参考スコア（独自算出の注目度）: 10.961439164833891
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Psychomotor retardation associated with depression has been linked with tangible differences in vowel production. This paper investigates a knowledge-driven machine learning (ML) method that integrates spectrotemporal information of speech at the vowel-level to identify the depression. Low-level speech descriptors are learned by a convolutional neural network (CNN) that is trained for vowel classification. The temporal evolution of those low-level descriptors is modeled at the high-level within and across utterances via a long short-term memory (LSTM) model that takes the final depression decision. A modified version of the Local Interpretable Model-agnostic Explanations (LIME) is further used to identify the impact of the low-level spectrotemporal vowel variation on the decisions and observe the high-level temporal change of the depression likelihood. The proposed method outperforms baselines that model the spectrotemporal information in speech without integrating the vowel-based information, as well as ML models trained with conventional prosodic and spectrotemporal features. The conducted explainability analysis indicates that spectrotemporal information corresponding to non-vowel segments less important than the vowel-based information. Explainability of the high-level information capturing the segment-by-segment decisions is further inspected for participants with and without depression. The findings from this work can provide the foundation toward knowledge-driven interpretable decision-support systems that can assist clinicians to better understand fine-grain temporal changes in speech data, ultimately augmenting mental health diagnosis and care.
Abstract（参考訳）: 抑うつに伴う精神運動遅滞は、母音生成の具体的差異と関連している。本稿では,母音レベルの音声のスペクトル時間情報を統合し,抑うつを識別する知識駆動機械学習(ML)手法について検討する。低レベル音声記述子は、母音分類のために訓練された畳み込みニューラルネットワーク(CNN)によって学習される。これらの低レベルディスクリプタの時間的進化は、最後の抑うつ決定を行う長い短期記憶(LSTM)モデルを介して、発話中の高レベルでモデル化される。局所解釈型モデル非依存説明法 (LIME) の修正版は、低レベルの分光時相変化が決定に与える影響を識別し、抑うつ傾向の高レベルの時間変化を観察するためにさらに使用される。提案手法は、母音に基づく情報を統合することなく、音声のスペクトル時間情報をモデル化するベースラインと、従来の韻律的特徴とスペクトル時間的特徴を訓練したMLモデルより優れている。分析の結果,非母音セグメントに対応するスペクトル情報が母音情報よりも重要でないことが示された。また、抑うつの有無にかかわらず、セグメント毎の判断を捉えた高レベル情報の説明可能性についても検証する。この研究から得られた知見は、知識駆動の解釈可能な意思決定支援システムの基盤となり、臨床医が音声データの微妙な時間変化をよりよく理解し、最終的にはメンタルヘルスの診断と治療を促進することができる。

関連論文リスト

Innovative Framework for Early Estimation of Mental Disorder Scores to Enable Timely Interventions [0.9297614330263184]
本稿では,PTSDとうつ病の自動分類のための高度なマルチモーダル深層学習システムについて述べる。提案手法は, うつ病では92%, PTSDでは93%の分類精度を達成し, 従来の単潮流法よりも優れていた。
論文参考訳（メタデータ） (2025-02-06T10:57:10Z)
Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文参考訳（メタデータ） (2024-11-28T05:23:22Z)
A Methodology for Explainable Large Language Models with Integrated Gradients and Linguistic Analysis in Text Classification [2.556395214262035]
アルツハイマー病(AD)のような発声に影響を及ぼす神経疾患は、患者と介護者の生活に大きな影響を及ぼす。近年のLarge Language Model (LLM) アーキテクチャの進歩は、自然発声による神経疾患の代表的特徴を識別する多くのツールを開発した。本稿では,ADに代表される語彙成分を識別できるSLIME法を提案する。
論文参考訳（メタデータ） (2024-09-30T21:45:02Z)
Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文参考訳（メタデータ） (2024-05-16T07:12:47Z)
Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文参考訳（メタデータ） (2024-05-03T02:59:15Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Leveraging Pretrained Representations with Task-related Keywords for Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文参考訳（メタデータ） (2023-03-14T16:03:28Z)
NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical Development Patterns of Preterm Infants [73.85768093666582]
我々はNeuroExplainerと呼ばれる説明可能な幾何学的深層ネットワークを提案する。 NeuroExplainerは、早産に伴う幼児の皮質発達パターンの解明に使用される。
論文参考訳（メタデータ） (2023-01-01T12:48:12Z)
A knowledge-driven vowel-based approach of depression classification from speech using data augmentation [10.961439164833891]
音声からの抑うつを識別する新しい機械学習モデルを提案する。提案手法はまず,局所レベルにおける可変長発話を固定サイズの母音ベース埋め込みにモデル化する。うつ病は、別の1D CNNの入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。
論文参考訳（メタデータ） (2022-10-27T08:34:08Z)
Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。変形性関節症、高齢者、および正常音声の分光時間差による動機づけ SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文参考訳（メタデータ） (2022-02-21T15:11:36Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。 UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文参考訳（メタデータ） (2022-01-14T16:56:43Z)
Identification of Dementia Using Audio Biomarkers [15.740689461116762]
本研究の目的は、認知症のステージを自動的に識別するために、音声処理と機械学習技術を使用することである。非言語的音響パラメータはこの目的のために使われ、言語に依存しないアプローチとなっている。我々は, スペクトル, 時間, ケプストラム等の音響特性の寄与と, 認知症ステージの同定への選択について分析した。
論文参考訳（メタデータ） (2020-02-27T13:54:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。