論文の概要: READ-Net: Clarifying Emotional Ambiguity via Adaptive Feature Recalibration for Audio-Visual Depression Detection
- arxiv url: http://arxiv.org/abs/2601.14651v1
- Date: Wed, 21 Jan 2026 04:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.234947
- Title: READ-Net: Clarifying Emotional Ambiguity via Adaptive Feature Recalibration for Audio-Visual Depression Detection
- Title(参考訳): READ-Net:適応的特徴校正による感情のあいまいさの明確化
- Authors: Chenglizhao Chen, Boze Li, Mengke Song, Dehao Feng, Xinyu Liu, Shanchen Pang, Jufeng Yang, Hui Yu,
- Abstract要約: 抑うつは、毎日の機能や生活の全体的な品質を損なう深刻な世界的メンタルヘルス問題である。
感情のあいまいさを解決するために設計された最初の音声・視覚的抑うつ検出フレームワークであるREAD-Netを提案する。
READ-Netは、無関係な感情ノイズを適応的に除去しながら、感情的特徴の中でうつ病に関連する手がかりを革新的に識別し、保存する。
- 参考スコア(独自算出の注目度): 44.6096152592417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Depression is a severe global mental health issue that impairs daily functioning and overall quality of life. Although recent audio-visual approaches have improved automatic depression detection, methods that ignore emotional cues often fail to capture subtle depressive signals hidden within emotional expressions. Conversely, those incorporating emotions frequently confuse transient emotional expressions with stable depressive symptoms in feature representations, a phenomenon termed \emph{Emotional Ambiguity}, thereby leading to detection errors. To address this critical issue, we propose READ-Net, the first audio-visual depression detection framework explicitly designed to resolve Emotional Ambiguity through Adaptive Feature Recalibration (AFR). The core insight of AFR is to dynamically adjust the weights of emotional features to enhance depression-related signals. Rather than merely overlooking or naively combining emotional information, READ-Net innovatively identifies and preserves depressive-relevant cues within emotional features, while adaptively filtering out irrelevant emotional noise. This recalibration strategy significantly clarifies feature representations, and effectively mitigates the persistent challenge of emotional interference. Additionally, READ-Net can be easily integrated into existing frameworks for improved performance. Extensive evaluations on three publicly available datasets show that READ-Net outperforms state-of-the-art methods, with average gains of 4.55\% in accuracy and 1.26\% in F1-score, demonstrating its robustness to emotional disturbances and improving audio-visual depression detection.
- Abstract(参考訳): 抑うつは、毎日の機能や生活の全体的な品質を損なう深刻な世界的メンタルヘルス問題である。
最近の音声・視覚的アプローチでは、自動うつ病検出が改善されているが、感情的な手がかりを無視する手法は、感情的な表現の中に隠された微妙な抑うつシグナルを捉えるのに失敗することが多い。
逆に、感情を取り入れた人は、特徴表現において安定した抑うつ症状を伴う過渡的な感情表現をしばしば混乱させ、それによって検出エラーにつながる現象である「emph{Emotional Ambiguity}」を生じる。
この重要な問題に対処するために,適応的特徴校正(AFR)による感情のあいまいさを解決するために設計された,最初の音声・視覚的抑うつ検出フレームワークであるREAD-Netを提案する。
AFRの中核となる洞察は、感情的特徴の重みを動的に調整し、うつ病関連信号を強化することである。
READ-Netは、単に感情的な情報を見落とし、あるいは神経的に組み合わせるのではなく、感情的な特徴の中でうつ病に関連する手がかりを特定し、保存し、無関係な感情的なノイズを適応的に除去する。
この再校正戦略は特徴表現を著しく明確化し、感情的干渉の持続的課題を効果的に軽減する。
さらに、READ-Netはパフォーマンスを改善するために既存のフレームワークに簡単に統合できる。
一般に公開されている3つのデータセットの大規模な評価によると、READ-Netは最先端の手法より優れており、平均的な精度は4.55\%、F1スコアは1.26\%向上し、感情障害に対する堅牢性を示し、オーディオ視覚的抑うつ検出を改善している。
関連論文リスト
- DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection [54.209716321122194]
抑うつ条件付きテキスト音声合成フレームワークであるDepFlowについて述べる。
抑うつ音響カモフラージュは、対向訓練を通じて話者と内容不変の抑うつ埋め込みを学習する。
フローマッチングTTSモデルとFiLM変調はこれらの埋め込みを合成に注入し、うつ病の重症度を制御する。
プロトタイプベースの重度マッピング機構は、うつ病連続体を滑らかかつ解釈可能な操作を提供する。
論文 参考訳(メタデータ) (2026-01-01T10:44:38Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Neural Responses to Affective Sentences Reveal Signatures of Depression [18.304785509577766]
大うつ病(Major Depressive Disorder、MDD)は、非常に一般的な精神疾患であり、その神経認知基盤の深い理解が不可欠である。
本研究では、自己参照感情文に対する神経反応を測定することにより、抑うつが感情処理の時間的ダイナミクスをどう変えるかを検討する。
以上の結果から,抑うつ状態における感情情報と自己参照情報の統合が阻害されたことが示唆された。
論文 参考訳(メタデータ) (2025-06-06T17:09:08Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - LEL: A Novel Lipschitz Continuity-constrained Ensemble Learning Model for EEG-based Emotion Recognition [6.9292405290420005]
脳波に基づく感情認識を強化する新しいフレームワークであるLEL(Lipschitz continuity-constrained Ensemble Learning)を導入する。
3つの公開ベンチマークデータセットの実験結果は、LELの最先端性能を実証した。
論文 参考訳(メタデータ) (2025-04-12T09:41:23Z) - Investigating Acoustic-Textual Emotional Inconsistency Information for Automatic Depression Detection [18.797661194307683]
従来の研究では、単一の音響的感情ラベルからの感情的特徴がうつ病の診断精度を高めることが示されている。
うつ病の人は、意外にも穏やかな方法で否定的な感情的内容を伝えるかもしれない。
この研究は、感情的表現の不整合情報をうつ病検出に組み込んだ最初のものである。
論文 参考訳(メタデータ) (2024-12-09T02:52:52Z) - Catching Elusive Depression via Facial Micro-Expression Recognition [17.236980932143855]
うつ病は一般的な精神疾患であり、継続的なうつ病の症状を引き起こすことがある。
うつ病の1つのカテゴリは、患者が故意または故意に自分の本質的な感情を隠蔽する、強制うつ病(Concealed Depression)である。
そこで本研究では,顔の微細な表現を用いて隠されたうつ病を診断し,根底にある真の感情を検出し,認識することを提案する。
論文 参考訳(メタデータ) (2023-07-29T01:51:17Z) - Climate and Weather: Inspecting Depression Detection via Emotion
Recognition [25.290414205116107]
本稿では,うつ病検出のための感情認識モデルから抽出した事前学習特徴を用いて,マルチモーダルうつ病検出を行う。
提案した感情伝達により,DAIC-WOZの抑うつ検出性能が向上し,トレーニング安定性が向上する。
論文 参考訳(メタデータ) (2022-04-29T13:44:22Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。