論文の概要: MMFformer: Multimodal Fusion Transformer Network for Depression Detection
- arxiv url: http://arxiv.org/abs/2508.06701v1
- Date: Fri, 08 Aug 2025 21:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.514355
- Title: MMFformer: Multimodal Fusion Transformer Network for Depression Detection
- Title(参考訳): MMFformer:圧縮検出のためのマルチモーダル核融合変圧器ネットワーク
- Authors: Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray,
- Abstract要約: うつ病は深刻な精神疾患であり、個人の健康と生活の質に大きな影響を及ぼす。
本稿では,マルチモーダルソーシャルメディア情報から時空間高レベルパターンを抽出するためのマルチモーダル検出ネットワークを提案する。
提案するネットワークは,2つの大規模うつ病検出データセットに基づいて評価される。
- 参考スコア(独自算出の注目度): 1.18749525824656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a significant challenge, limiting the accurate extraction of relevant temporal information and the effective fusion of data across multiple modalities. This paper introduces MMFformer, a multimodal depression detection network designed to retrieve depressive spatio-temporal high-level patterns from multimodal social media information. The transformer network with residual connections captures spatial features from videos, and a transformer encoder is exploited to design important temporal dynamics in audio. Moreover, the fusion architecture fused the extracted features through late and intermediate fusion strategies to find out the most relevant intermodal correlations among them. Finally, the proposed network is assessed on two large-scale depression detection datasets, and the results clearly reveal that it surpasses existing state-of-the-art approaches, improving the F1-Score by 13.92% for D-Vlog dataset and 7.74% for LMVD dataset. The code is made available publicly at https://github.com/rezwanh001/Large-Scale-Multimodal-Depression-Detection.
- Abstract(参考訳): うつ病は深刻な精神疾患であり、個人の健康と生活の質に大きな影響を与え、早期発見は適切なケアと治療に不可欠である。
うつ病の検出は、主に臨床面接における主観的評価に基づくため、しばしば困難である。
そのため、ソーシャルネットワークのコンテンツのおかげで、うつ病の早期診断が顕著な研究領域となっている。
ユーザ生成情報の広範かつ多様な性質は、関連する時間情報の正確な抽出と、複数のモダリティにまたがるデータの効果的な融合を制限し、重大な課題をもたらす。
本稿では,マルチモーダルソーシャルメディア情報から時空間的高次パターンを抽出するマルチモーダル抑うつ検出ネットワークMMFformerを紹介する。
残差接続を有するトランスフォーマーネットワークはビデオから空間的特徴をキャプチャし、トランスフォーマーエンコーダを利用してオーディオの重要な時間的ダイナミクスを設計する。
さらに, 融合構造は, 抽出した特徴を, 後期および中期の融合戦略を通じて融合させ, それらの間の最も関連性の高い相関関係を見いだした。
最後に、提案したネットワークは2つの大規模うつ病検出データセットに基づいて評価され、その結果、既存の最先端のアプローチを超え、D-Vlogデータセットが13.92%、LMVDデータセットが7.74%改善していることが明らかとなった。
コードはhttps://github.com/rezwanh001/Large-Scale-Multimodal-Depression-Detectionで公開されている。
関連論文リスト
- MDD-Net: Multimodal Depression Detection through Mutual Transformer [1.18749525824656]
うつ病は、個人の感情と身体の健康に深刻な影響を及ぼす主要な精神状態である。
本研究では,マルチモーダル圧縮検出ネットワーク(MDD-Net)を提案する。
開発されたマルチモーダルうつ病検出ネットワークは、F1スコアの最先端を最大17.37%超える。
論文 参考訳(メタデータ) (2025-08-11T15:32:56Z) - Enhancing Depression Detection via Question-wise Modality Fusion [47.45016610508853]
うつ病は、かなりの個人的・社会的コストを発生させる、非常に普及し、無効な状態である。
そこで我々は,新しい不均衡正規対数関数を用いて学習した質問知度モダリティ・フュージョン(Modality Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T12:34:34Z) - CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis [46.56667527672019]
マルチモーダルEHRデータから有意な時間的パターンを効率的に抽出するために,CTPD(Cross-Modal Temporal Pattern Discovery)フレームワークを導入する。
提案手法では,時間的セマンティックな埋め込みを生成するためにスロットアテンションを用いて改良された時間的パターン表現を提案する。
論文 参考訳(メタデータ) (2024-11-01T15:54:07Z) - A BERT-Based Summarization approach for depression detection [1.7363112470483526]
うつ病は世界中で流行する精神疾患であり、対処されないと深刻な反感を引き起こす可能性がある。
機械学習と人工知能は、さまざまなデータソースからのうつ病指標を自律的に検出することができる。
本研究では,入力テキストの長さと複雑さを低減させる前処理手法として,テキスト要約を提案する。
論文 参考訳(メタデータ) (2024-09-13T02:14:34Z) - A Depression Detection Method Based on Multi-Modal Feature Fusion Using Cross-Attention [3.4872769952628926]
世界の人口の約3.8%が落ち込んでいる。
低所得国と中所得国の75%以上が未治療のままである。
本稿では,クロスアテンションを用いたマルチモーダル特徴融合に基づく抑うつ検出手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T13:13:35Z) - Attention-Based Acoustic Feature Fusion Network for Depression Detection [11.972591489278988]
抑うつ検出のためのアテンションベース音響特徴融合ネットワーク(ABAFnet)を提案する。
ABAFnetは、4つの異なる音響特徴を包括的ディープラーニングモデルに組み合わせ、多層的特徴を効果的に統合し、ブレンドする。
本稿では,これらの特徴を効果的に合成することにより,性能を向上する,遅延核融合のための新しい重量調整モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-24T00:31:51Z) - Brain Imaging-to-Graph Generation using Adversarial Hierarchical Diffusion Models for MCI Causality Analysis [44.45598796591008]
機能的磁気共鳴画像(fMRI)を軽度認知障害解析のための効果的な接続性にマッピングするために,脳画像から画像へのBIGG(Brain Imaging-to-graph generation)フレームワークを提案する。
発電機の階層変換器は、複数のスケールでノイズを推定するように設計されている。
ADNIデータセットの評価は,提案モデルの有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T06:54:56Z) - Multimodal Depression Severity Prediction from medical bio-markers using
Machine Learning Tools and Technologies [0.0]
うつ病は世界中の精神疾患の主要な原因となっている。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
ラベル付き行動データセットの欠如と、膨大な量のバリエーションが、タスクを達成する上で大きな課題であることが証明されている。
論文 参考訳(メタデータ) (2020-09-11T20:44:28Z) - Context-Aware Refinement Network Incorporating Structural Connectivity
Prior for Brain Midline Delineation [50.868845400939314]
UNetによって生成された特徴ピラミッド表現を洗練・統合するための文脈対応改良ネットワーク(CAR-Net)を提案する。
正中線における脳の構造的接続性を維持するため、我々は新しい接続性レギュラーロスを導入する。
提案手法は, パラメータを少なくし, 4つの評価指標で3つの最先端手法より優れる。
論文 参考訳(メタデータ) (2020-07-10T14:01:20Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。