論文の概要: CAF-Mamba: Mamba-Based Cross-Modal Adaptive Attention Fusion for Multimodal Depression Detection
- arxiv url: http://arxiv.org/abs/2601.21648v1
- Date: Thu, 29 Jan 2026 12:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.819957
- Title: CAF-Mamba: Mamba-Based Cross-Modal Adaptive Attention Fusion for Multimodal Depression Detection
- Title(参考訳): CAF-Mamba:マルチモーダルデプレッション検出のためのマンバ型クロスモーダルアダプティブアテンションフュージョン
- Authors: Bowen Zhou, Marc-André Fiedler, Ayoub Al-Hamadi,
- Abstract要約: うつ病は、日常的な機能や生活の質を著しく損なう精神疾患である。
CAF-Mambaは,新しいマルチモーダルアダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・フュージョン・フレームワークである。
CAF-マンバは、モダリティ間の相互作用を明示的に暗黙的に捉えるだけでなく、モダリティの注意機構を通じてモダリティの寄与を動的に調整する。
- 参考スコア(独自算出の注目度): 7.434832300906272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depression is a prevalent mental health disorder that severely impairs daily functioning and quality of life. While recent deep learning approaches for depression detection have shown promise, most rely on limited feature types, overlook explicit cross-modal interactions, and employ simple concatenation or static weighting for fusion. To overcome these limitations, we propose CAF-Mamba, a novel Mamba-based cross-modal adaptive attention fusion framework. CAF-Mamba not only captures cross-modal interactions explicitly and implicitly, but also dynamically adjusts modality contributions through a modality-wise attention mechanism, enabling more effective multimodal fusion. Experiments on two in-the-wild benchmark datasets, LMVD and D-Vlog, demonstrate that CAF-Mamba consistently outperforms existing methods and achieves state-of-the-art performance.
- Abstract(参考訳): うつ病は、日常的な機能や生活の質を著しく損なう精神疾患である。
最近のうつ病検出のためのディープラーニングアプローチは有望であることを示しているが、ほとんどの場合、限られた特徴タイプに依存し、明示的な相互モーダル相互作用を見落とし、単純な結合や静的重み付けを融合に用いている。
これらの制約を克服するために,我々は,新しいマンバをベースとしたクロスモーダルアダプティブアダプティブアダプティブアダプティブアテンションフュージョンフレームワークであるCAF-Mambaを提案する。
CAF-マンバはモダリティ間の相互作用を明示的に暗黙的に捉えるだけでなく、モダリティ的な注意機構を通じてモダリティの寄与を動的に調整し、より効果的なマルチモーダル融合を可能にする。
LMVDとD-Vlogの2つの内部ベンチマークデータセットの実験は、CAF-Mambaが既存のメソッドを一貫して上回り、最先端のパフォーマンスを達成することを示した。
関連論文リスト
- M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection [37.701518424351505]
うつ病は世界中で何百万人もの人に影響を及ぼす一般的な精神疾患である。
DepMambaと呼ばれるマルチモーダル抑うつ検出のための音声-視覚的プログレッシブ・フュージョン・マンバを提案する。
論文 参考訳(メタデータ) (2024-09-24T09:58:07Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。