論文の概要: Speech based Depression Severity Level Classification Using a
Multi-Stage Dilated CNN-LSTM Model
- arxiv url: http://arxiv.org/abs/2104.04195v1
- Date: Fri, 9 Apr 2021 05:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 13:53:39.932857
- Title: Speech based Depression Severity Level Classification Using a
Multi-Stage Dilated CNN-LSTM Model
- Title(参考訳): 多段階拡張CNN-LSTMモデルを用いた音声による抑うつレベル分類
- Authors: Nadee Seneviratne, Carol Espy-Wilson
- Abstract要約: 抑うつ分類タスクを重症度レベルの分類問題として定式化し、分類結果により粒度を提供する。
我々は,精神運動の減速によって生じる神経運動の調整の変化を捉えるために,調音コーディネート機能(ACF)を開発した。
- 参考スコア(独自算出の注目度): 5.419077350924331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech based depression classification has gained immense popularity over the
recent years. However, most of the classification studies have focused on
binary classification to distinguish depressed subjects from non-depressed
subjects. In this paper, we formulate the depression classification task as a
severity level classification problem to provide more granularity to the
classification outcomes. We use articulatory coordination features (ACFs)
developed to capture the changes of neuromotor coordination that happens as a
result of psychomotor slowing, a necessary feature of Major Depressive
Disorder. The ACFs derived from the vocal tract variables (TVs) are used to
train a dilated Convolutional Neural Network based depression classification
model to obtain segment-level predictions. Then, we propose a Recurrent Neural
Network based approach to obtain session-level predictions from segment-level
predictions. We show that strengths of the segment-wise classifier are
amplified when a session-wise classifier is trained on embeddings obtained from
it. The model trained on ACFs derived from TVs show relative improvement of
27.47% in Unweighted Average Recall (UAR) at the session-level classification
task, compared to the ACFs derived from Mel Frequency Cepstral Coefficients
(MFCCs).
- Abstract(参考訳): 近年,発話に基づく抑うつ分類が盛んに普及している。
しかしながら、ほとんどの分類研究は、うつ病の被験者と非うつ病の被験者を区別する二分分類に焦点を当てている。
本稿では, うつ病分類課題を重度レベル分類問題として定式化し, 分類結果により粒度を付与する。
重度抑うつ障害の必要特徴である精神運動器の減速の結果起こる神経運動の協調の変化を捉えるために開発された調音調整機能(acfs)を用いる。
声道変数(TV)から派生したACFを用いて,拡張畳み込みニューラルネットワークに基づく抑うつ分類モデルを訓練し,セグメントレベルの予測を行う。
そこで我々は,セグメントレベルの予測からセッションレベルの予測を得るために,リカレントニューラルネットワークに基づくアプローチを提案する。
セグメントワイズ分類器の強度は、セッションワイズ分類器がそこから得られる埋め込みに基づいて訓練されたときに増幅されることを示す。
テレビから派生したACFをトレーニングしたモデルは、Mel Frequency Cepstral Coefficients (MFCCs) から派生したACFと比較して、セッションレベルの分類タスクにおけるUnweighted Average Recall (UAR)の27.47%の相対的な改善を示している。
関連論文リスト
- Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Multi-task Explainable Skin Lesion Classification [54.76511683427566]
少ないラベル付きデータでよく一般化する皮膚病変に対する数発のショットベースアプローチを提案する。
提案手法は,アテンションモジュールや分類ネットワークとして機能するセグメンテーションネットワークの融合を含む。
論文 参考訳(メタデータ) (2023-10-11T05:49:47Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - A novel adversarial learning strategy for medical image classification [9.253330143870427]
補助畳み込みニューラルネットワーク(AuxCNN)は、中間層のトレーニングを容易にするために、従来の分類ネットワーク上に採用されている。
本研究では,医用画像分類のための深層ニューラルネットワークのトレーニングを支援するための,対角学習に基づくAuxCNNを提案する。
論文 参考訳(メタデータ) (2022-06-23T06:57:17Z) - Deep Neural Decision Forest for Acoustic Scene Classification [45.886356124352226]
音響シーン分類(ASC)は、録音環境の特性に基づいて音声クリップを分類することを目的としている。
深層神経決定林(DNDF)を用いたASCの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-07T14:39:42Z) - Multimodal Depression Classification Using Articulatory Coordination
Features And Hierarchical Attention Based Text Embeddings [4.050982413149992]
声道変数とテキストの書き起こしから抽出した動脈協調機能を用いたマルチモーダルうつ病分類システムを開発した。
このシステムはセッションレベルの音声モデルとHANテキストモデルからの埋め込みを組み合わせることで開発される。
論文 参考訳(メタデータ) (2022-02-13T07:37:09Z) - SuperCon: Supervised Contrastive Learning for Imbalanced Skin Lesion
Classification [9.265557367859637]
SuperConは、皮膚病変分類におけるクラス不均衡問題を克服するための2段階のトレーニング戦略である。
2段階のトレーニング戦略は,クラス不均衡の分類問題に効果的に対処し,F1スコアとAUCスコアの点で既存の作業を大幅に改善する。
論文 参考訳(メタデータ) (2022-02-11T15:19:36Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Class-Discriminative CNN Compression [10.675326899147802]
我々は,CNNのトレーニング目標を促進するために,プルーニングと蒸留の両方でクラス識別を注入するクラス識別圧縮(CDC)を提案する。
CDC は CIFAR と ILSVRC 2012 で評価されている。
論文 参考訳(メタデータ) (2021-10-21T02:54:05Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Generalized Dilated CNN Models for Depression Detection Using Inverted
Vocal Tract Variables [4.050982413149992]
声帯バイオマーカーを用いた抑うつ検出は高度に研究されている分野である。
既存の研究の発見は主に、結果の一般化性を制限する単一のデータベース上で検証されている。
拡張コニキュラルニューラルネットワークを用いた抑うつ検出のための一般化分類器を提案する。
論文 参考訳(メタデータ) (2020-11-13T03:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。