論文の概要: Context-Aware Deep Learning for Multi Modal Depression Detection
- arxiv url: http://arxiv.org/abs/2412.19209v1
- Date: Thu, 26 Dec 2024 13:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:29.331540
- Title: Context-Aware Deep Learning for Multi Modal Depression Detection
- Title(参考訳): マルチモーダルデプレッション検出のための文脈認識深層学習
- Authors: Genevieve Lam, Huang Dongyan, Weisi Lin,
- Abstract要約: マルチモーダル機械学習(ML)を用いた臨床面接からうつ病を自動的に検出するアプローチに焦点をあてる。
本研究では,(1)テキストデータに対するトピックモデリングに基づくデータ拡張と,(2)音響特徴モデリングのための深部1次元畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。
我々のディープ1D CNNとトランスフォーマーモデルはそれぞれ、オーディオとテキストのモダリティの最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 41.02897689721331
- License:
- Abstract: In this study, we focus on automated approaches to detect depression from clinical interviews using multi-modal machine learning (ML). Our approach differentiates from other successful ML methods such as context-aware analysis through feature engineering and end-to-end deep neural networks for depression detection utilizing the Distress Analysis Interview Corpus. We propose a novel method that incorporates: (1) pre-trained Transformer combined with data augmentation based on topic modelling for textual data; and (2) deep 1D convolutional neural network (CNN) for acoustic feature modeling. The simulation results demonstrate the effectiveness of the proposed method for training multi-modal deep learning models. Our deep 1D CNN and Transformer models achieved state-of-the-art performance for audio and text modalities respectively. Combining them in a multi-modal framework also outperforms state-of-the-art for the combined setting. Code available at https://github.com/genandlam/multi-modal-depression-detection
- Abstract(参考訳): 本研究では,マルチモーダル機械学習(ML)を用いた臨床面接からうつ病を自動的に検出する手法に焦点を当てた。
提案手法は,Distress Analysis Interview Corpusを用いて,特徴工学による文脈認識分析や,抑うつ検出のためのエンドツーエンドのディープニューラルネットワークなど,他のML手法と異なる。
本研究では,(1)テキストデータに対するトピックモデリングに基づくデータ拡張と,(2)音響特徴モデリングのための深部1次元畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。
シミュレーションの結果,マルチモーダル深層学習モデルの訓練における提案手法の有効性が示された。
我々のディープ1D CNNとトランスフォーマーモデルはそれぞれ、オーディオとテキストのモダリティの最先端のパフォーマンスを達成した。
それらをマルチモーダルなフレームワークに組み合わせることも、組み合わせた設定で最先端を上回ります。
https://github.com/genandlam/multi-modal-depression-detectionで利用可能なコード
関連論文リスト
- Revealing Vision-Language Integration in the Brain with Multimodal Networks [21.88969136189006]
我々は,ヒト脳のマルチモーダルな統合部位を,ヒトが映画を観ている最中のステレオ脳波(SEEG)記録を予測することにより探索するために,マルチディープニューラルネットワーク(DNN)を用いた。
マルチモーダル・ビジョン・ランゲージ・モデルでは,非モーダル言語や非モーダル・ビジョン,線形統合言語ビジョン・モデルよりも優れた録音を予測できる領域として,マルチモーダル統合のサイトを運用している。
論文 参考訳(メタデータ) (2024-06-20T16:43:22Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Revisiting Pre-training in Audio-Visual Learning [6.547660539954143]
事前学習したモデルが2つの音声視覚学習シナリオに与える影響について検討する。
対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
論文 参考訳(メタデータ) (2023-02-07T15:34:14Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Ultrasound Signal Processing: From Models to Deep Learning [64.56774869055826]
医用超音波画像は、信頼性と解釈可能な画像再構成を提供するために、高品質な信号処理に大きく依存している。
データ駆動方式で最適化されたディープラーニングベースの手法が人気を集めている。
比較的新しいパラダイムは、データ駆動型ディープラーニングの活用とドメイン知識の活用という2つのパワーを組み合わせたものだ。
論文 参考訳(メタデータ) (2022-04-09T13:04:36Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks [3.0410237490041805]
本研究では,深層ニューラルネットワークの堅牢性と解釈性を改善するために,トレーニングデータを積極的に活用する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
その結果,Flickr8 と IMDB の2つのタスクに対して提案したモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-02-25T17:38:31Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。