論文の概要: Towards Stable Cross-Domain Depression Recognition under Missing Modalities
- arxiv url: http://arxiv.org/abs/2512.06447v1
- Date: Sat, 06 Dec 2025 14:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.364785
- Title: Towards Stable Cross-Domain Depression Recognition under Missing Modalities
- Title(参考訳): 失われたモード下での安定なクロスドメイン型抑うつ認識に向けて
- Authors: Jiuyi Chen, Mingkui Tan, Haifeng Lu, Qiuna Xu, Zhihua Wang, Runhao Zeng, Xiping Hu,
- Abstract要約: うつ病は自殺を含む深刻な公衆衛生上のリスクを生じさせ、タイムリーでスケーラブルなスクリーニングの緊急性を強調している。
マルチモーダル大言語モデル(SCD-MLLM)に基づく安定なドメイン間圧縮認識のための統合フレームワークを提案する。
このフレームワークは、様々なソースから収集された不均一なうつ病関連データの統合と処理をサポートする。
- 参考スコア(独自算出の注目度): 46.292478012586066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depression poses serious public health risks, including suicide, underscoring the urgency of timely and scalable screening. Multimodal automatic depression detection (ADD) offers a promising solution; however, widely studied audio- and video-based ADD methods lack a unified, generalizable framework for diverse depression recognition scenarios and show limited stability to missing modalities, which are common in real-world data. In this work, we propose a unified framework for Stable Cross-Domain Depression Recognition based on Multimodal Large Language Model (SCD-MLLM). The framework supports the integration and processing of heterogeneous depression-related data collected from varied sources while maintaining stability in the presence of incomplete modality inputs. Specifically, SCD-MLLM introduces two key components: (i) Multi-Source Data Input Adapter (MDIA), which employs masking mechanism and task-specific prompts to transform heterogeneous depression-related inputs into uniform token sequences, addressing inconsistency across diverse data sources; (ii) Modality-Aware Adaptive Fusion Module (MAFM), which adaptively integrates audio and visual features via a shared projection mechanism, enhancing resilience under missing modality conditions. e conduct comprehensive experiments under multi-dataset joint training settings on five publicly available and heterogeneous depression datasets from diverse scenarios: CMDC, AVEC2014, DAIC-WOZ, DVlog, and EATD. Across both complete and partial modality settings, SCD-MLLM outperforms state-of-the-art (SOTA) models as well as leading commercial LLMs (Gemini and GPT), demonstrating superior cross-domain generalization, enhanced ability to capture multimodal cues of depression, and strong stability to missing modality cases in real-world applications.
- Abstract(参考訳): うつ病は自殺を含む深刻な公衆衛生上のリスクを生じさせ、タイムリーでスケーラブルなスクリーニングの緊急性を強調している。
マルチモーダル自動うつ病検出(ADD)は有望な解決策であるが、広範に研究されているオーディオおよびビデオベースのADD手法では、多様なうつ病認識シナリオに対して統一的で一般化可能なフレームワークが欠如しており、実際のデータに共通する欠落したモダリティに対して限られた安定性を示す。
本研究では,マルチモーダル大言語モデル(SCD-MLLM)に基づく安定なクロスドメイン印象認識のための統合フレームワークを提案する。
このフレームワークは、不完全なモダリティ入力の存在下での安定性を維持しつつ、様々なソースから収集された不均一なうつ病関連データの統合と処理をサポートする。
具体的には、SCD-MLLMは2つの重要なコンポーネントを導入している。
i)多元データ入力アダプタ(MDIA)は、マスキング機構とタスク固有のプロンプトを用いて、異種うつ病関連インプットを均一なトークンシーケンスに変換し、多様なデータソース間の不整合に対処する。
(II)MAFM(Modality-Aware Adaptive Fusion Module)は、共有投影機構を介して音声と視覚の機能を適応的に統合し、欠落したモード条件下でのレジリエンスを高める。
eは、CMDC、AVEC2014、DAIC-WOZ、DVlog、EATDの5つの公開および異種うつ病データセットに対して、マルチデータセット共同トレーニング設定の下で包括的な実験を行う。
完全なモダリティ設定と部分的なモダリティ設定の両方において、SCD-MLLMは、最先端の商用LCM(GeminiとGPT)モデルよりも優れており、優れたドメイン間の一般化、うつ病のマルチモーダルなキューをキャプチャする能力の強化、現実世界のアプリケーションで欠落したモダリティケースに対する安定性の強いことが示されている。
関連論文リスト
- UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection [37.37926854174864]
ディープフェイク検出では、ソーシャルメディアプラットフォームが使用する様々な圧縮の程度が、モデルの一般化と信頼性に重大な課題をもたらす。
クロスモーダルレート深度検出のための一様生成マルチモーダルコントラスト学習フレームワークを提案する。
提案手法は, 各種圧縮速度および操作タイプにまたがる優れた性能を実現し, 堅牢なディープフェイク検出のための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-24T10:56:22Z) - Multi-modal MRI Translation via Evidential Regression and Distribution Calibration [29.56726531611307]
本稿では,マルチモーダルMRI翻訳を分布校正を伴う多モーダルな明示的回帰問題として再構成する新しいフレームワークを提案する。
提案手法は,1) 異なるソースモードから不確かさを推定する明示的回帰モジュールと,2) ソースターゲットマッピングシフトに適応する分布校正機構とを具体化したものである。
論文 参考訳(メタデータ) (2024-07-10T05:17:01Z) - MDA: An Interpretable and Scalable Multi-Modal Fusion under Missing Modalities and Intrinsic Noise Conditions [6.612523356335498]
本稿では,マルチモーダル学習の課題に対処するために,モーダル・ドメイン・アテンション(MDA)モデルを提案する。
MDAは、異なるモーダルに対して動的注意を適応的に割り当てる能力により、連続的な注意を通してモーダル間の線形関係を構築する。
以上の結果から,MDAと診断基準が一致していることが示唆された。
論文 参考訳(メタデータ) (2024-06-15T09:08:58Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。