論文の概要: TRI-DEP: A Trimodal Comparative Study for Depression Detection Using Speech, Text, and EEG
- arxiv url: http://arxiv.org/abs/2510.14922v1
- Date: Thu, 16 Oct 2025 17:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.980285
- Title: TRI-DEP: A Trimodal Comparative Study for Depression Detection Using Speech, Text, and EEG
- Title(参考訳): TRI-DEP:音声・テキスト・脳波を用いた抑うつ検出のための3モーダル比較研究
- Authors: Annisaa Fitri Nurfidausi, Eleonora Mancini, Paolo Torroni,
- Abstract要約: うつ病は広範な精神疾患であるが、自動検出は依然として困難である。
先行研究は、相補的な信号を活用することで約束を示すマルチモーダルシステムを用いて、一助的および多モーダルなアプローチを探求してきた。
脳波を横断する特徴表現とモデリング戦略を,音声やテキストとともに体系的に探求することで,これらのギャップに対処する。
- 参考スコア(独自算出の注目度): 3.599572587929144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depression is a widespread mental health disorder, yet its automatic detection remains challenging. Prior work has explored unimodal and multimodal approaches, with multimodal systems showing promise by leveraging complementary signals. However, existing studies are limited in scope, lack systematic comparisons of features, and suffer from inconsistent evaluation protocols. We address these gaps by systematically exploring feature representations and modelling strategies across EEG, together with speech and text. We evaluate handcrafted features versus pre-trained embeddings, assess the effectiveness of different neural encoders, compare unimodal, bimodal, and trimodal configurations, and analyse fusion strategies with attention to the role of EEG. Consistent subject-independent splits are applied to ensure robust, reproducible benchmarking. Our results show that (i) the combination of EEG, speech and text modalities enhances multimodal detection, (ii) pretrained embeddings outperform handcrafted features, and (iii) carefully designed trimodal models achieve state-of-the-art performance. Our work lays the groundwork for future research in multimodal depression detection.
- Abstract(参考訳): うつ病は広範な精神疾患であるが、自動検出は依然として困難である。
先行研究は、相補的な信号を活用することで約束を示すマルチモーダルシステムを用いて、一助的および多モーダルなアプローチを探求してきた。
しかし、既存の研究は範囲が限られており、特徴の体系的な比較が欠如しており、一貫性のない評価プロトコルに悩まされている。
脳波を横断する特徴表現とモデリング戦略を,音声やテキストとともに体系的に探求することで,これらのギャップに対処する。
脳波の役割に着目した融合戦略を解析し,手工芸的特徴と事前訓練による埋め込みの評価,異なる神経エンコーダの有効性の評価,一様,二様,三様構成の比較を行った。
一貫性のある被写体非依存の分割は、堅牢で再現可能なベンチマークを保証するために適用される。
私たちの結果は
(i)脳波・音声・テキストモダリティの組み合わせにより,マルチモーダル検出が促進される。
(二)手工芸品に優れた予め訓練した埋め込み、及び
三 丁寧に設計されたトリモーダルモデルは、最先端の性能を達成する。
本研究は,マルチモーダルうつ病検出における今後の研究の基盤となる。
関連論文リスト
- Exploring Machine Learning and Language Models for Multimodal Depression Detection [8.357574678947245]
本稿では,第1回マルチモーダル・パーソナリティ・アウェア・デプレッション検出チャレンジへのアプローチを提案する。
我々は,音声,ビデオ,テキスト機能において,XGBoost,トランスフォーマーベースのアーキテクチャ,および大規模言語モデル(LLM)の性能を探索し比較する。
本研究は,モダリティにまたがる抑うつ関連信号の捉え方について,各モデルの強みと限界を強調した。
論文 参考訳(メタデータ) (2025-08-28T14:07:07Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [26.867610944625337]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z) - Contrastive Learning on Multimodal Analysis of Electronic Health Records [15.392566551086782]
本稿では,新しい特徴埋め込み生成モデルを提案し,マルチモーダルEHR特徴表現を得るためのマルチモーダルコントラスト損失を設計する。
本理論は, 単モーダル学習と比較して, 多モーダル学習の有効性を実証するものである。
この接続は、マルチモーダルEHR特徴表現学習に適したプライバシー保護アルゴリズムの道を開く。
論文 参考訳(メタデータ) (2024-03-22T03:01:42Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。