論文の概要: Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders
- arxiv url: http://arxiv.org/abs/2409.00391v1
- Date: Sat, 31 Aug 2024 08:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:08:42.473603
- Title: Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders
- Title(参考訳): 密度適応アテンションに基づく音声ネットワーク:メンタルヘルス障害の特徴理解を強化する
- Authors: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins,
- Abstract要約: DAAMAudioCNNLSTMとDAAMAudioTransformerを導入する。
両モデルとも、抑うつ検出に音声信号を利用する際の重要な説明可能性と効率は、より信頼性が高く、臨床的に有用な診断ツールへの飛躍を表している。
- 参考スコア(独自算出の注目度): 0.8437187555622164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-based depression detection poses significant challenges for automated detection due to its unique manifestation across individuals and data scarcity. Addressing these challenges, we introduce DAAMAudioCNNLSTM and DAAMAudioTransformer, two parameter efficient and explainable models for audio feature extraction and depression detection. DAAMAudioCNNLSTM features a novel CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM), focusing dynamically on informative speech segments. DAAMAudioTransformer, leveraging a transformer encoder in place of the CNN-LSTM architecture, incorporates the same DAAM module for enhanced attention and interpretability. These approaches not only enhance detection robustness and interpretability but also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the DAIC-WOZ dataset, without reliance on supplementary information such as vowel positions and speaker information during training/validation as in previous approaches. Both models' significant explainability and efficiency in leveraging speech signals for depression detection represent a leap towards more reliable, clinically useful diagnostic tools, promising advancements in speech and mental health care. To foster further research in this domain, we make our code publicly available.
- Abstract(参考訳): 音声に基づく抑うつ検出は、個人間での独特の出現とデータ不足により、自動検出に重大な課題を生じさせる。
これらの課題に対処するため,DAAMAudioCNNLSTMとDAAMAudioTransformerを導入する。
DAAMAudioCNNLSTMは,多頭部密度適応注意機構(DAAM)を備えた新しいCNN-LSTMフレームワークを特徴とする。
DAAMAudioTransformerは、CNN-LSTMアーキテクチャの代わりにトランスフォーマーエンコーダを利用するもので、注目と解釈性を高めるために同じDAAMモジュールを組み込んでいる。
DAAMAudioCNNLSTM, F1マクロスコア0.702, DAAMAudioTransformer, F1マクロスコア0.72, DAIC-WOZデータセットでは, 母音の位置や話者情報などの補足情報に依存しない。
両モデルとも、抑うつ検出に音声信号を利用する際の重要な説明可能性と効率は、より信頼性が高く、臨床的に有用な診断ツールへの飛躍であり、音声とメンタルヘルスの進歩を約束している。
この領域におけるさらなる研究を促進するため、コードを公開しています。
関連論文リスト
- FoME: A Foundation Model for EEG using Adaptive Temporal-Lateral Attention Scaling [19.85701025524892]
FoME (Foundation Model for EEG) は適応的側方アテンションスケーリングを用いた新しいアプローチである。
FoMEは1.7TBの頭皮と頭蓋内脳波記録のデータセットで事前訓練されており、1,096kのステップで745Mのパラメータが訓練されている。
論文 参考訳(メタデータ) (2024-09-19T04:22:40Z) - DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Attention-Based Acoustic Feature Fusion Network for Depression Detection [11.972591489278988]
抑うつ検出のためのアテンションベース音響特徴融合ネットワーク(ABAFnet)を提案する。
ABAFnetは、4つの異なる音響特徴を包括的ディープラーニングモデルに組み合わせ、多層的特徴を効果的に統合し、ブレンドする。
本稿では,これらの特徴を効果的に合成することにより,性能を向上する,遅延核融合のための新しい重量調整モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-24T00:31:51Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Comparative Study of Speech Analysis Methods to Predict Parkinson's
Disease [0.0]
発声障害は、変性する前にこの疾患を検出するために用いられる。
この研究は、PDを予測するための音声特徴と機械学習アプローチを分析する。
全ての音響特性とMFCCを使い、SVMと共に98%の精度で最高の性能を実現した。
論文 参考訳(メタデータ) (2021-11-15T04:29:51Z) - Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and
Speech Pause Features Robust to Noisy Inputs [11.34426502082293]
本稿では, 話者がアルツハイマー病を患っているか否かを分類するために, ASR で書き起こされた音声と音響データを同時に消費する2つの多モード融合型深層学習モデルを提案する。
我々の最良モデルである、単語、単語確率、拡散特性、ポーズ情報、および様々な音響特徴を用いたハイウェイ層付きBiLSTMは、MMSE認知スコアに対して84%の精度とRSME誤差予測を4.26の精度で達成する。
論文 参考訳(メタデータ) (2021-06-29T19:24:29Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。