論文の概要: A knowledge-driven vowel-based approach of depression classification
from speech using data augmentation
- arxiv url: http://arxiv.org/abs/2210.15261v1
- Date: Thu, 27 Oct 2022 08:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 16:07:33.415376
- Title: A knowledge-driven vowel-based approach of depression classification
from speech using data augmentation
- Title(参考訳): 知識駆動母音に基づくデータ拡張を用いた音声からの抑うつ分類のアプローチ
- Authors: Kexin Feng and Theodora Chaspari
- Abstract要約: 音声からの抑うつを識別する新しい機械学習モデルを提案する。
提案手法はまず,局所レベルにおける可変長発話を固定サイズの母音ベース埋め込みにモデル化する。
うつ病は、別の1D CNNの入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。
- 参考スコア(独自算出の注目度): 10.961439164833891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel explainable machine learning (ML) model that identifies
depression from speech, by modeling the temporal dependencies across utterances
and utilizing the spectrotemporal information at the vowel level. Our method
first models the variable-length utterances at the local-level into a
fixed-size vowel-based embedding using a convolutional neural network with a
spatial pyramid pooling layer ("vowel CNN"). Following that, the depression is
classified at the global-level from a group of vowel CNN embeddings that serve
as the input of another 1D CNN ("depression CNN"). Different data augmentation
methods are designed for both the training of vowel CNN and depression CNN. We
investigate the performance of the proposed system at various temporal
granularities when modeling short, medium, and long analysis windows,
corresponding to 10, 21, and 42 utterances, respectively. The proposed method
reaches comparable performance with previous state-of-the-art approaches and
depicts explainable properties with respect to the depression outcome. The
findings from this work may benefit clinicians by providing additional
intuitions during joint human-ML decision-making tasks.
- Abstract(参考訳): 本稿では,発話間の時間依存性をモデル化し,母音レベルでのスペクトル時間情報を活用することによって,音声からの抑うつを識別する新しい機械学習モデルを提案する。
本手法は,空間ピラミッドプーリング層を有する畳み込みニューラルネットワーク("vowel cnn")を用いて,局所レベルの可変長発話を定サイズの母音ベース埋め込みにモデル化する。
その後、抑うつは、別の1D CNN(抑うつCNN)の入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。
母音cnnと抑うつcnnの訓練のために異なるデータ拡張法が設計されている。
提案手法は,10,21,42発話に対応して,短い,中,長い解析窓をモデル化する際の時間的粒度の異なるシステムの性能について検討した。
提案手法は,従来の最先端手法と同等の性能に達し,抑うつ結果に関して説明可能な特性を示す。
この研究から得られた知見は、人間-ml共同意思決定タスク中に追加の直感を提供することで臨床医に利益をもたらす可能性がある。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Toward Knowledge-Driven Speech-Based Models of Depression: Leveraging
Spectrotemporal Variations in Speech Vowels [10.961439164833891]
抑うつに関連する精神運動士の遅滞は、母音生成の有形差と関連付けられている。
本稿では,母音レベルの音声のスペクトル時間情報を統合し,抑うつを識別する知識駆動機械学習(ML)手法について検討する。
論文 参考訳(メタデータ) (2022-10-05T19:57:53Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Multimodal Depression Classification Using Articulatory Coordination
Features And Hierarchical Attention Based Text Embeddings [4.050982413149992]
声道変数とテキストの書き起こしから抽出した動脈協調機能を用いたマルチモーダルうつ病分類システムを開発した。
このシステムはセッションレベルの音声モデルとHANテキストモデルからの埋め込みを組み合わせることで開発される。
論文 参考訳(メタデータ) (2022-02-13T07:37:09Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Interpreting intermediate convolutional layers of CNNs trained on raw
speech [0.0]
各畳み込み層におけるReLUアクティベーション後の特徴マップを平均すると、解釈可能な時系列データが得られることを示す。
提案手法は中間畳み込み層の音響解析を可能にする。
論文 参考訳(メタデータ) (2021-04-19T17:52:06Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。