論文の概要: DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection
- arxiv url: http://arxiv.org/abs/2601.00303v1
- Date: Thu, 01 Jan 2026 10:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.36882
- Title: DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection
- Title(参考訳): DepFlow:デプレッション検出におけるセマンティックバイアス軽減のためのアンタングル音声生成
- Authors: Yuxin Li, Xiangyu Zhang, Yifei Li, Zhiwei Guo, Haoyang Zhang, Eng Siong Chng, Cuntai Guan,
- Abstract要約: 抑うつ条件付きテキスト音声合成フレームワークであるDepFlowについて述べる。
抑うつ音響カモフラージュは、対向訓練を通じて話者と内容不変の抑うつ埋め込みを学習する。
フローマッチングTTSモデルとFiLM変調はこれらの埋め込みを合成に注入し、うつ病の重症度を制御する。
プロトタイプベースの重度マッピング機構は、うつ病連続体を滑らかかつ解釈可能な操作を提供する。
- 参考スコア(独自算出の注目度): 54.209716321122194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is a scalable and non-invasive biomarker for early mental health screening. However, widely used depression datasets like DAIC-WOZ exhibit strong coupling between linguistic sentiment and diagnostic labels, encouraging models to learn semantic shortcuts. As a result, model robustness may be compromised in real-world scenarios, such as Camouflaged Depression, where individuals maintain socially positive or neutral language despite underlying depressive states. To mitigate this semantic bias, we propose DepFlow, a three-stage depression-conditioned text-to-speech framework. First, a Depression Acoustic Encoder learns speaker- and content-invariant depression embeddings through adversarial training, achieving effective disentanglement while preserving depression discriminability (ROC-AUC: 0.693). Second, a flow-matching TTS model with FiLM modulation injects these embeddings into synthesis, enabling control over depressive severity while preserving content and speaker identity. Third, a prototype-based severity mapping mechanism provides smooth and interpretable manipulation across the depression continuum. Using DepFlow, we construct a Camouflage Depression-oriented Augmentation (CDoA) dataset that pairs depressed acoustic patterns with positive/neutral content from a sentiment-stratified text bank, creating acoustic-semantic mismatches underrepresented in natural data. Evaluated across three depression detection architectures, CDoA improves macro-F1 by 9%, 12%, and 5%, respectively, consistently outperforming conventional augmentation strategies in depression Detection. Beyond enhancing robustness, DepFlow provides a controllable synthesis platform for conversational systems and simulation-based evaluation, where real clinical data remains limited by ethical and coverage constraints.
- Abstract(参考訳): 音声は、初期のメンタルヘルススクリーニングのためのスケーラブルで非侵襲的なバイオマーカーである。
しかし、DAIC-WOZのような広く使われているうつ病データセットは言語感情と診断ラベルの強い結合を示し、モデルにセマンティックショートカットの学習を促す。
その結果、モデルロバスト性は、下層の抑うつ状態にもかかわらず、個人が社会的に肯定的または中立的な言語を維持するカモフラージュ的抑うつ(Camouflaged Depression)のような現実世界のシナリオで損なわれる可能性がある。
このセマンティックバイアスを軽減するために,3段階の抑うつ条件付きテキスト音声合成フレームワークであるDepFlowを提案する。
まず、抑うつ音響エンコーダは、対向訓練により話者・内容不変の抑うつ埋め込みを学習し、抑うつ識別性を保ちながら効果的なゆがみを実現する(ROC-AUC: 0.693)。
第2に、FiLM変調を用いたフローマッチングTSモデルにより、これらの埋め込みを合成に注入し、コンテンツと話者のアイデンティティを保存しながら、うつ病の重症度を制御することができる。
第3に、プロトタイプベースの重度マッピング機構は、うつ病連続体を滑らかかつ解釈可能な操作を提供する。
DepFlowを用いて、感情階層化されたテキストバンクから、抑圧された音響パターンと肯定的・中立的な内容とをペアリングし、自然なデータで表現されていない音響・意味的ミスマッチを生成するカモフラージュ抑うつ指向拡張(CDoA)データセットを構築した。
3つのうつ病検出アーキテクチャで評価され、CDoAはマクロF1を9%、12%、5%改善し、うつ病検出における従来の増悪戦略を一貫して上回っている。
堅牢性の向上に加えて、DepFlowは会話システムとシミュレーションベースの評価のための制御可能な合成プラットフォームを提供する。
関連論文リスト
- DepressLLM: Interpretable domain-adapted language model for depression detection from real-world narratives [6.1211540596331755]
本研究では,幸福と苦悩の両方を反映した3,699個の自伝的物語のコーパスをトレーニングし,評価したDepressLLMを紹介する。
DepressLLMは解釈可能な抑うつ予測を提供し、Score-guided Token Probability Summation (SToPS)モジュールを通じて、改善された分類性能と信頼性の高い信頼推定を提供する。
論文 参考訳(メタデータ) (2025-08-12T03:12:55Z) - Investigating Acoustic-Textual Emotional Inconsistency Information for Automatic Depression Detection [18.797661194307683]
従来の研究では、単一の音響的感情ラベルからの感情的特徴がうつ病の診断精度を高めることが示されている。
うつ病の人は、意外にも穏やかな方法で否定的な感情的内容を伝えるかもしれない。
この研究は、感情的表現の不整合情報をうつ病検出に組み込んだ最初のものである。
論文 参考訳(メタデータ) (2024-12-09T02:52:52Z) - A BERT-Based Summarization approach for depression detection [1.7363112470483526]
うつ病は世界中で流行する精神疾患であり、対処されないと深刻な反感を引き起こす可能性がある。
機械学習と人工知能は、さまざまなデータソースからのうつ病指標を自律的に検出することができる。
本研究では,入力テキストの長さと複雑さを低減させる前処理手法として,テキスト要約を提案する。
論文 参考訳(メタデータ) (2024-09-13T02:14:34Z) - Hierarchical attention interpretation: an interpretable speech-level
transformer for bi-modal depression detection [6.561362931802501]
うつ病は一般的な精神疾患である。機械学習によって実現された音声を用いた自動うつ病検出ツールは、うつ病の早期スクリーニングに役立つ。
本稿では、セグメントレベルのラベリングによるノイズと、モデル解釈可能性の欠如という、そのようなツールの臨床的実装を妨げる可能性のある2つの制限に対処する。
論文 参考訳(メタデータ) (2023-09-23T20:48:58Z) - The Relationship Between Speech Features Changes When You Get Depressed:
Feature Correlations for Improving Speed and Performance of Depression
Detection [69.88072583383085]
この研究は、抑うつが音声から抽出した特徴間の相関を変化させることを示す。
このような洞察を用いることで、SVMとLSTMに基づく抑うつ検出器のトレーニング速度と性能を向上させることができる。
論文 参考訳(メタデータ) (2023-07-06T09:54:35Z) - Depression detection in social media posts using affective and social
norm features [84.12658971655253]
ソーシャルメディア投稿からの抑うつ検出のための奥深いアーキテクチャを提案する。
我々は、後期融合方式を用いて、ポストとワードの敬称と道徳的特徴をアーキテクチャに組み込んだ。
提案された機能を含めると、両方の設定で最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-03-24T21:26:27Z) - Bayesian Networks for the robust and unbiased prediction of depression
and its symptoms utilizing speech and multimodal data [65.28160163774274]
我々は,抑うつ,抑うつ症状,および,胸腺で収集された音声,表情,認知ゲームデータから得られる特徴の関連性を把握するためにベイズ的枠組みを適用した。
論文 参考訳(メタデータ) (2022-11-09T14:48:13Z) - Deep Multi-task Learning for Depression Detection and Prediction in
Longitudinal Data [50.02223091927777]
うつ病は最も多い精神疾患の1つであり、世界中の年齢の何百万人もの人々に影響を与えている。
機械学習技術は、早期介入と治療のためのうつ病の自動検出と予測を可能にしている。
本稿では、この課題に対処するために、2つの補助的タスクでうつ病分類を共同最適化する、新しいディープマルチタスクリカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。