論文の概要: Voice Biomarkers for Depression and Anxiety
- arxiv url: http://arxiv.org/abs/2605.09908v1
- Date: Mon, 11 May 2026 02:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.48385
- Title: Voice Biomarkers for Depression and Anxiety
- Title(参考訳): 抑うつ・不安のための音声バイオマーカー
- Authors: Oleksii Abramenko, Noah D. Stein, Colin Vaz,
- Abstract要約: 抑うつや不安を音声から検出するための現在のアプローチは、機械学習技術に依存している。
生の音声信号に直接深層学習を適用することは、予測力を大幅に高めるバイオマーカー表現を生成する可能性がある。
大規模プロプライエタリデータセットに基づいてトレーニングされたディープラーニングモデルの開発に向けた取り組みについて述べる。
- 参考スコア(独自算出の注目度): 1.0535472555708638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches to detecting depression and anxiety from speech primarily rely on machine learning techniques that utilize hand-engineered paralinguistic features and related acoustic descriptors derived from time- and frequency-domain representations of speech signals. Applying deep learning methods directly to raw speech signals has the potential to produce biomarker representations with substantially greater predictive power. However, these approaches typically require large volumes of carefully annotated data to learn robust and clinically meaningful representations of the underlying biomarkers. In this paper, we describe our efforts toward developing a deep learning model trained on a large-scale proprietary dataset comprising ~65,000 utterances collected from more than 23,000 subjects representative of relevant United States demographics. We present the techniques employed and analyze their impact on model performance. Our results demonstrate that the proposed models can extract content-agnostic biomarker information, which, when combined with lexical features extracted from audio, yields improved predictive performance in production settings. Our models are evaluated on ~5000 unique subjects and achieve performance of 71% in terms of sensitivity and specificity. To foster further research in mental health assessment from speech, we release the best-performing model described in this paper on HuggingFace.
- Abstract(参考訳): 音声からの抑うつや不安を検出するための現在のアプローチは、主に手作業によるパラ言語的特徴と、音声信号の時間領域と周波数領域の表現から派生した関連する音響記述子を利用する機械学習技術に依存している。
生の音声信号に直接深層学習を適用することは、予測力を大幅に高めるバイオマーカー表現を生成する可能性がある。
しかし、これらのアプローチは通常、基礎となるバイオマーカーの堅牢で臨床的に意味のある表現を学ぶために、注意深く注釈付けされた大量のデータを必要とする。
本稿では,米国人口の23,000人以上の被験者から収集した約65,000の発話からなる大規模プロプライエタリデータセットに基づくディープラーニングモデルの構築に向けた取り組みについて述べる。
そこで本研究では,モデル性能への影響を解析・解析する手法を提案する。
提案手法は, 音声から抽出した語彙特徴と組み合わせることで, 生産環境における予測性能が向上することを示す。
評価対象は5000種程度で,感度と特異性は71%であった。
本稿では,音声によるメンタルヘルスアセスメントのさらなる研究を促進するために,HuggingFaceに記載されたベストパフォーマンスモデルをリリースする。
関連論文リスト
- Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - TabPFN-Wide: Continued Pre-Training for Extreme Feature Counts [2.3448377994589644]
既存のモデルを拡張する戦略として,事前にカスタマイズしたデータから抽出した合成データの事前学習を継続する手法を提案する。
結果のモデルであるTabPFN-Wideは、ノイズに対する堅牢性を改善しながら、ベースモデルのパフォーマンスを一致または超過する。
論文 参考訳(メタデータ) (2025-10-07T17:28:49Z) - Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds [24.203596224724848]
自己教師型音声モデルは,音声処理において顕著な性能を示したが,その非音声データに対する効果は未検討のままである。
我々は,HuBERT,WavLM,XEUSなどのモデルが,分類群全体にわたって動物の音の豊かな潜伏表現を生成可能であることを示す。
その結果, 微調整された生体音響事前学習モデルと競合し, ノイズローバスト事前学習装置の影響を示す。
論文 参考訳(メタデータ) (2025-09-04T12:39:05Z) - Speech transformer models for extracting information from baby cries [0.6822819361110412]
本研究では,8つのベビークライスデータセットを用いて,事前学習した5つの音声モデルを評価する。
各データセットに対して、各モデルの潜在表現を、利用可能なすべての分類タスクで評価する。
以上の結果から,これらのモデルの潜在表現は,人間の乳幼児の泣き声を効果的に分類できることが示唆された。
論文 参考訳(メタデータ) (2025-09-02T12:34:33Z) - Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。
提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文 参考訳(メタデータ) (2025-06-02T13:46:02Z) - Robust Speech and Natural Language Processing Models for Depression Screening [0.0]
うつ病は世界的な健康上の問題であり、患者スクリーニングの強化が不可欠である。
この目的のために開発された2つのディープラーニングモデルについて述べる。
1つのモデルは音響に基づいており、もう1つは自然言語処理に基づいている。
論文 参考訳(メタデータ) (2024-12-26T06:05:52Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。