論文の概要: Detecting anxiety from short clips of free-form speech
- arxiv url: http://arxiv.org/abs/2312.15272v1
- Date: Sat, 23 Dec 2023 14:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:50:56.437010
- Title: Detecting anxiety from short clips of free-form speech
- Title(参考訳): 自由形態音声の短いクリップからの不安検出
- Authors: Prabhat Agarwal, Akshat Jindal, Shreya Singh
- Abstract要約: 患者の音声ジャーナルから不安障害を診断するための機械学習ソリューションを開発した。
マルチモーダルおよびオーディオ埋め込みに基づく手法により,タスクの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 1.6497679785422956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Barriers to accessing mental health assessments including cost and stigma
continues to be an impediment in mental health diagnosis and treatment. Machine
learning approaches based on speech samples could help in this direction. In
this work, we develop machine learning solutions to diagnose anxiety disorders
from audio journals of patients. We work on a novel anxiety dataset (provided
through collaboration with Kintsugi Mindful Wellness Inc.) and experiment with
several models of varying complexity utilizing audio, text and a combination of
multiple modalities. We show that the multi-modal and audio embeddings based
approaches achieve good performance in the task achieving an AUC ROC score of
0.68-0.69.
- Abstract(参考訳): コストやスティグマなどのメンタルヘルスアセスメントへのアクセス障壁は、メンタルヘルスの診断と治療の障害であり続けている。
音声サンプルに基づく機械学習アプローチは、この方向に役立つだろう。
本研究では,患者の音声ジャーナルから不安障害を診断する機械学習ソリューションを開発した。
我々は,新しい不安データセット (kintsugi mindful wellness inc. とのコラボレーションにより提供) を開発し,音声,テキスト,複数モーダリティの組み合わせを用いた様々な複雑性モデルの実験を行った。
AUC ROCスコア0.68-0.69を達成するタスクにおいて,マルチモーダルおよびオーディオ埋め込みに基づく手法が優れた性能を発揮することを示す。
関連論文リスト
- Speech-based Clinical Depression Screening: An Empirical Study [32.84863235794086]
本研究では,AIを用いた抑うつスクリーニングにおける音声信号の有用性について検討した。
参加者には、北京大学第6病院の外来から採用されているうつ病患者が含まれる。
音声と深部音声の特徴を各参加者の分節録音から抽出した。
論文 参考訳(メタデータ) (2024-06-05T09:43:54Z) - Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文 参考訳(メタデータ) (2024-05-16T07:12:47Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - DEPAC: a Corpus for Depression and Anxiety Detection from Speech [3.2154432166999465]
本稿では、うつ病と不安スクリーニングツールの確立したしきい値に基づいてラベル付けされた、心的苦痛分析オーディオデータセットDEPACを紹介する。
この大きなデータセットは、個人ごとの複数の音声タスクと、関連する人口統計情報から構成される。
人間の音声における精神疾患の徴候の同定に有効な,手作業による音響的特徴と言語的特徴からなる特徴セットを提案する。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Robust Medical Image Classification from Noisy Labeled Data with Global
and Local Representation Guided Co-training [73.60883490436956]
本稿では,ロバストな医用画像分類のためのグローバルおよびローカルな表現学習を用いた新しい協調学習パラダイムを提案する。
ノイズラベルフィルタを用いた自己アンサンブルモデルを用いて、クリーンでノイズの多いサンプルを効率的に選択する。
また,ネットワークを暗黙的に正規化してノイズの多いサンプルを利用するための,グローバルかつ局所的な表現学習手法を設計する。
論文 参考訳(メタデータ) (2022-05-10T07:50:08Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Stutter Diagnosis and Therapy System Based on Deep Learning [2.3581263491506097]
スタッタリング(stammering)は、音声の連続性を破るコミュニケーション障害である。
本稿では,MFCC音声特徴に対するGated Recurrent CNNを用いたスタッター診断エージェントの実装と,SVMを用いた治療勧告エージェントの実装に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T10:24:02Z) - Detecting Parkinsonian Tremor from IMU Data Collected In-The-Wild using
Deep Multiple-Instance Learning [59.74684475991192]
パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人口の約1%に影響を与える徐々に進化する神経学的疾患である。
PD症状には、震動、剛性、ブレイキネジアがある。
本稿では,スマートフォン端末から受信したIMU信号に基づいて,PDに関連するトレモラスなエピソードを自動的に識別する手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。