論文の概要: Prediction of Depression Severity Based on the Prosodic and Semantic
Features with Bidirectional LSTM and Time Distributed CNN
- arxiv url: http://arxiv.org/abs/2202.12456v1
- Date: Fri, 25 Feb 2022 01:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:34:16.279198
- Title: Prediction of Depression Severity Based on the Prosodic and Semantic
Features with Bidirectional LSTM and Time Distributed CNN
- Title(参考訳): 双方向LSTMと時間分散CNNを用いた韻律的特徴と意味的特徴に基づく抑うつの予測
- Authors: Kaining Mao, Wei Zhang, Deborah Baofeng Wang, Ang Li, Rongqi Jiao,
Yanhui Zhu, Bin Wu, Tiansheng Zheng, Lei Qian, Wei Lyu, Minjie Ye, Jie Chen
- Abstract要約: 抑うつ予測のための注意に基づくマルチモーダリティ音声とテキスト表現を提案する。
本モデルは,OzデータセットのDistress Analysis Interview Corpus-Wizardを用いて,参加者のうつ病重症度を推定するために訓練された。
実験では、過去の研究よりも統計的に有意な改善が見られた。
- 参考スコア(独自算出の注目度): 14.994852548758825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depression is increasingly impacting individuals both physically and
psychologically worldwide. It has become a global major public health problem
and attracts attention from various research fields. Traditionally, the
diagnosis of depression is formulated through semi-structured interviews and
supplementary questionnaires, which makes the diagnosis heavily relying on
physicians experience and is subject to bias. Mental health monitoring and
cloud-based remote diagnosis can be implemented through an automated depression
diagnosis system. In this article, we propose an attention-based multimodality
speech and text representation for depression prediction. Our model is trained
to estimate the depression severity of participants using the Distress Analysis
Interview Corpus-Wizard of Oz (DAIC-WOZ) dataset. For the audio modality, we
use the collaborative voice analysis repository (COVAREP) features provided by
the dataset and employ a Bidirectional Long Short-Term Memory Network (Bi-LSTM)
followed by a Time-distributed Convolutional Neural Network (T-CNN). For the
text modality, we use global vectors for word representation (GloVe) to perform
word embeddings and the embeddings are fed into the Bi-LSTM network. Results
show that both audio and text models perform well on the depression severity
estimation task, with best sequence level F1 score of 0.9870 and patient-level
F1 score of 0.9074 for the audio model over five classes (healthy, mild,
moderate, moderately severe, and severe), as well as sequence level F1 score of
0.9709 and patient-level F1 score of 0.9245 for the text model over five
classes. Results are similar for the multimodality fused model, with the
highest F1 score of 0.9580 on the patient-level depression detection task over
five classes. Experiments show statistically significant improvements over
previous works.
- Abstract(参考訳): うつ病は世界中で身体的にも心理的にも個人に影響を及ぼしている。
世界規模の公衆衛生問題となり、様々な研究分野から注目を集めている。
伝統的に、うつ病の診断は半構造化面接と補足的なアンケートによって定式化されており、医師の経験に重きを置きバイアスを被っている。
メンタルヘルスモニタリングとクラウドベースのリモート診断は、自動うつ病診断システムを通じて実施することができる。
本稿では,抑うつ予測のための注意に基づくマルチモーダリティ音声とテキスト表現を提案する。
本モデルは,Ozデータセット(DAIC-WOZ)を用いて,参加者のうつ病重症度を推定するために訓練された。
音声モダリティには、データセットが提供するコラボレーティブ音声分析レポジトリ(COVAREP)機能を使用し、Bidirectional Long Short-Term Memory Network(Bi-LSTM)とTime-distributed Convolutional Neural Network(T-CNN)を用いる。
テキストモダリティでは、単語表現(GloVe)にグローバルベクトルを用いて単語埋め込みを行い、その埋め込みをBi-LSTMネットワークに入力する。
その結果,5つのクラス(健康,中等度,中等度,重度,重度)の音声モデルに対して,最良シーケンスレベルF1スコアが0.9870,患者レベルF1スコアが0.9074,患者レベルF1スコアが0.9709,患者レベルF1スコアが0.9245であった。
結果は多モード融合モデルに似ており、患者レベルのうつ病検出タスクでは5つのクラスでF1スコアが0.9580である。
実験では、過去の研究よりも統計的に有意な改善が見られた。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Robust Speech and Natural Language Processing Models for Depression Screening [0.0]
うつ病は世界的な健康上の問題であり、患者スクリーニングの強化が不可欠である。
この目的のために開発された2つのディープラーニングモデルについて述べる。
1つのモデルは音響に基づいており、もう1つは自然言語処理に基づいている。
論文 参考訳(メタデータ) (2024-12-26T06:05:52Z) - Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance [0.9074663948713616]
本研究では,マルチモーダル精神保健診断におけるLarge Language Models(LLMs)の可能性について検討した。
テキストと音声のモダリティを比較し,LLMが音声入力で等しく動作するかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T20:40:03Z) - Depression Detection and Analysis using Large Language Models on Textual and Audio-Visual Modalities [25.305909441170993]
うつ病は公衆衛生上の重大な問題であり、個人の心理的健康に大きな影響を与えている。
診断されていない場合、うつ病は重篤な健康問題を引き起こし、身体的に現れて自殺に至る。
論文 参考訳(メタデータ) (2024-07-08T17:00:51Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - The Relationship Between Speech Features Changes When You Get Depressed:
Feature Correlations for Improving Speed and Performance of Depression
Detection [69.88072583383085]
この研究は、抑うつが音声から抽出した特徴間の相関を変化させることを示す。
このような洞察を用いることで、SVMとLSTMに基づく抑うつ検出器のトレーニング速度と性能を向上させることができる。
論文 参考訳(メタデータ) (2023-07-06T09:54:35Z) - Tissue Classification During Needle Insertion Using Self-Supervised
Contrastive Learning and Optical Coherence Tomography [53.38589633687604]
針先端で取得した複雑なCT信号の位相および強度データから組織を分類するディープニューラルネットワークを提案する。
トレーニングセットの10%で、提案した事前学習戦略により、モデルが0.84のF1スコアを達成するのに対して、モデルが0.60のF1スコアを得るのに対して、モデルが0.84のF1スコアを得るのに役立ちます。
論文 参考訳(メタデータ) (2023-04-26T14:11:04Z) - Deep Multi-task Learning for Depression Detection and Prediction in
Longitudinal Data [50.02223091927777]
うつ病は最も多い精神疾患の1つであり、世界中の年齢の何百万人もの人々に影響を与えている。
機械学習技術は、早期介入と治療のためのうつ病の自動検出と予測を可能にしている。
本稿では、この課題に対処するために、2つの補助的タスクでうつ病分類を共同最適化する、新しいディープマルチタスクリカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:14:14Z) - Multimodal Depression Severity Prediction from medical bio-markers using
Machine Learning Tools and Technologies [0.0]
うつ病は世界中の精神疾患の主要な原因となっている。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
ラベル付き行動データセットの欠如と、膨大な量のバリエーションが、タスクを達成する上で大きな課題であることが証明されている。
論文 参考訳(メタデータ) (2020-09-11T20:44:28Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。