論文の概要: MDD-Net: Multimodal Depression Detection through Mutual Transformer
- arxiv url: http://arxiv.org/abs/2508.08093v1
- Date: Mon, 11 Aug 2025 15:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.175538
- Title: MDD-Net: Multimodal Depression Detection through Mutual Transformer
- Title(参考訳): MDD-Net:相互変換器によるマルチモーダル圧縮検出
- Authors: Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray,
- Abstract要約: うつ病は、個人の感情と身体の健康に深刻な影響を及ぼす主要な精神状態である。
本研究では,マルチモーダル圧縮検出ネットワーク(MDD-Net)を提案する。
開発されたマルチモーダルうつ病検出ネットワークは、F1スコアの最先端を最大17.37%超える。
- 参考スコア(独自算出の注目度): 1.18749525824656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depression is a major mental health condition that severely impacts the emotional and physical well-being of individuals. The simple nature of data collection from social media platforms has attracted significant interest in properly utilizing this information for mental health research. A Multimodal Depression Detection Network (MDD-Net), utilizing acoustic and visual data obtained from social media networks, is proposed in this work where mutual transformers are exploited to efficiently extract and fuse multimodal features for efficient depression detection. The MDD-Net consists of four core modules: an acoustic feature extraction module for retrieving relevant acoustic attributes, a visual feature extraction module for extracting significant high-level patterns, a mutual transformer for computing the correlations among the generated features and fusing these features from multiple modalities, and a detection layer for detecting depression using the fused feature representations. The extensive experiments are performed using the multimodal D-Vlog dataset, and the findings reveal that the developed multimodal depression detection network surpasses the state-of-the-art by up to 17.37% for F1-Score, demonstrating the greater performance of the proposed system. The source code is accessible at https://github.com/rezwanh001/Multimodal-Depression-Detection.
- Abstract(参考訳): うつ病は、個人の感情と身体の健康に深刻な影響を及ぼす主要な精神状態である。
ソーシャルメディアプラットフォームからのデータ収集のシンプルな性質は、この情報をメンタルヘルス研究に適切に活用することに大きな関心を集めている。
ソーシャルメディアから得られた音響的・視覚的データを利用したマルチモーダル抑うつ検出ネットワーク(MDD-Net)を提案する。
MDD-Netは、関連する音響特性を抽出する音響特徴抽出モジュールと、重要な高レベルパターンを抽出する視覚特徴抽出モジュールと、生成された特徴間の相関を計算し、これらの特徴を複数のモードから融合させる相互変換モジュールと、融合した特徴表現を用いて抑うつを検出する検出層とからなる。
マルチモーダルD-Vlogデータセットを用いて大規模な実験を行い,F1スコアにおいて,マルチモーダル抑うつ検出ネットワークが最先端の17.37%を超え,提案システムの性能向上を実証した。
ソースコードはhttps://github.com/rezwanh001/Multimodal-Depression-Detectionで参照できる。
関連論文リスト
- MMFformer: Multimodal Fusion Transformer Network for Depression Detection [1.18749525824656]
うつ病は深刻な精神疾患であり、個人の健康と生活の質に大きな影響を及ぼす。
本稿では,マルチモーダルソーシャルメディア情報から時空間高レベルパターンを抽出するためのマルチモーダル検出ネットワークを提案する。
提案するネットワークは,2つの大規模うつ病検出データセットに基づいて評価される。
論文 参考訳(メタデータ) (2025-08-08T21:03:29Z) - Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries [51.72836644350993]
マルチモーダルプレトレーニング DEL-Fusion Model (MPDF)
我々は,異なる複合表現とそれらのテキスト記述の対比対象を適用した事前学習タスクを開発する。
本稿では, 原子, 分子, 分子レベルでの複合情報をアマルガメートする新しいDEL融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T17:32:21Z) - MOGAM: A Multimodal Object-oriented Graph Attention Model for Depression Detection [5.506046101113427]
ソーシャルメディアにおける抑うつを検知するためのMOGAM(Multimodal Object-Oriented Graph Attention Model)を提案する。
本モデルでは,うつ病の症状を確実に把握するために,臨床診断を行うユーザからのvlogしか含まない。
MOGAMは0.871の精度とF1スコア0.888の精度を達成した。
論文 参考訳(メタデータ) (2024-03-21T07:45:58Z) - CANAMRF: An Attention-Based Model for Multimodal Depression Detection [7.266707571724883]
適応型マルチモーダルリカレントフュージョン(CANAMRF)を用いたマルチモーダル抑うつ検出のためのクロスモーダルアテンションネットワークを提案する。
CANAMRFは、マルチモーダル特徴抽出器、アダプティブマルチモーダルリカレントフュージョンモジュール、ハイブリッドアテンションモジュールによって構成されている。
論文 参考訳(メタデータ) (2024-01-04T12:08:16Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Attention-Based Acoustic Feature Fusion Network for Depression Detection [11.972591489278988]
抑うつ検出のためのアテンションベース音響特徴融合ネットワーク(ABAFnet)を提案する。
ABAFnetは、4つの異なる音響特徴を包括的ディープラーニングモデルに組み合わせ、多層的特徴を効果的に統合し、ブレンドする。
本稿では,これらの特徴を効果的に合成することにより,性能を向上する,遅延核融合のための新しい重量調整モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-24T00:31:51Z) - Automatic Depression Detection via Learning and Fusing Features from
Visual Cues [42.71590961896457]
本稿では,視覚的手がかりから特徴を学習し,融合させることにより,新しい自動抑うつ検出法を提案する。
本手法は,DAIC_WOZデータセット上での最先端性能を,他の視覚的特徴に基づく手法と比較して達成する。
論文 参考訳(メタデータ) (2022-03-01T09:28:12Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。