論文の概要: DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection
- arxiv url: http://arxiv.org/abs/2409.15936v1
- Date: Tue, 24 Sep 2024 09:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:01:40.780895
- Title: DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection
- Title(参考訳): DepMamba: マルチモーダルデプレッション検出のためのプログレッシブフュージョン・マンバ
- Authors: Jiaxin Ye, Junping Zhang, Hongming Shan,
- Abstract要約: うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。
DepMambaと呼ばれるマルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案する。
- 参考スコア(独自算出の注目度): 37.701518424351505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depression is a common mental disorder that affects millions of people worldwide. Although promising, current multimodal methods hinge on aligned or aggregated multimodal fusion, suffering two significant limitations: (i) inefficient long-range temporal modeling, and (ii) sub-optimal multimodal fusion between intermodal fusion and intramodal processing. In this paper, we propose an audio-visual progressive fusion Mamba for multimodal depression detection, termed DepMamba. DepMamba features two core designs: hierarchical contextual modeling and progressive multimodal fusion. On the one hand, hierarchical modeling introduces convolution neural networks and Mamba to extract the local-to-global features within long-range sequences. On the other hand, the progressive fusion first presents a multimodal collaborative State Space Model (SSM) extracting intermodal and intramodal information for each modality, and then utilizes a multimodal enhanced SSM for modality cohesion. Extensive experimental results on two large-scale depression datasets demonstrate the superior performance of our DepMamba over existing state-of-the-art methods. Code is available at https://github.com/Jiaxin-Ye/DepMamba.
- Abstract(参考訳): うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。
有望ではあるが、現在のマルチモーダル法は、アライメントされたあるいは集約されたマルチモーダル核融合にヒンジする。
(i)非効率な長距離時間モデリング、及び
(II) モーダル間融合とモーダル内処理の準最適マルチモーダル融合
本稿では,マルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案し,これをDepMambaと呼ぶ。
DepMambaは階層型コンテキストモデリングとプログレッシブマルチモーダル融合という2つのコア設計を特徴としている。
一方、階層的モデリングでは、畳み込みニューラルネットワークとMambaを導入して、長距離シーケンス内の局所的-グローバル的特徴を抽出する。
一方、プログレッシブ・フュージョンはまず、モーダル毎のモーダル情報とモーダル内情報を抽出するマルチモーダル・コラボレーティブ・ステート・スペース・モデル(SSM)を示し、その後、モーダル結合にマルチモーダル強化SSMを使用する。
2つの大規模うつ病データセットの大規模な実験結果は、既存の最先端手法よりもDepMambaの優れた性能を示している。
コードはhttps://github.com/Jiaxin-Ye/DepMamba.comで入手できる。
関連論文リスト
- Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model [18.19558762805031]
本稿では,複数モードの状態チェーンを結合し,モード内状態プロセスの独立性を維持した結合型SSMモデルを提案する。
CMU-EI,CH-SIMS,CH-SIMSV2のマルチドメイン入力による実験により,本モデルの有効性が検証された。
その結果, 結合マンバモデルではマルチモーダル核融合が可能であることがわかった。
論文 参考訳(メタデータ) (2024-05-28T09:57:03Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - SurvMamba: State Space Model with Multi-grained Multi-modal Interaction for Survival Prediction [8.452410804749512]
生存予測のための多層多モード相互作用(SurvMamba)を用いた状態空間モデルを提案する。
SurvMamba は階層的相互作用 Mamba (HIM) モジュールで実装されている。
インターフェクション・フュージョン・マンバ (IFM) モジュールは、モーダル間インタラクティブ・フュージョンのカスケードに使われ、生存予測のためのより包括的な特徴をもたらす。
論文 参考訳(メタデータ) (2024-04-11T15:58:12Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - NestedFormer: Nested Modality-Aware Transformer for Brain Tumor
Segmentation [29.157465321864265]
そこで我々は,Nested Modality-Aware Transformer (NestedFormer) を提案する。
変換器をベースとしたマルチエンコーダと単一デコーダ構造に基づいて,異なるモードの高レベル表現に対してネストしたマルチモーダル融合を行う。
論文 参考訳(メタデータ) (2022-08-31T14:04:25Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。