論文の概要: Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment
- arxiv url: http://arxiv.org/abs/2504.01767v1
- Date: Wed, 02 Apr 2025 14:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:27.569546
- Title: Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment
- Title(参考訳): 精神疾患評価のためのマルチモーダル機械学習における埋め込み手法の活用
- Authors: Abdelrahaman A. Hassan, Abdelrahman A. Ali, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda,
- Abstract要約: うつ病やPTSDなどの精神疾患の世界的な流行は、客観的でスケーラブルな診断ツールを必要とする。
本稿では、テキスト、音声、ビデオデータに相補的な情報を活用することで、これらの課題に対処するためのマルチモーダル機械学習の可能性を検討する。
大規模言語モデル予測の新たな統合を含む,データレベル,機能レベル,意思決定レベルの融合技術について検討する。
- 参考スコア(独自算出の注目度): 0.8458496687170665
- License:
- Abstract: The increasing global prevalence of mental disorders, such as depression and PTSD, requires objective and scalable diagnostic tools. Traditional clinical assessments often face limitations in accessibility, objectivity, and consistency. This paper investigates the potential of multimodal machine learning to address these challenges, leveraging the complementary information available in text, audio, and video data. Our approach involves a comprehensive analysis of various data preprocessing techniques, including novel chunking and utterance-based formatting strategies. We systematically evaluate a range of state-of-the-art embedding models for each modality and employ Convolutional Neural Networks (CNNs) and Bidirectional LSTM Networks (BiLSTMs) for feature extraction. We explore data-level, feature-level, and decision-level fusion techniques, including a novel integration of Large Language Model (LLM) predictions. We also investigate the impact of replacing Multilayer Perceptron classifiers with Support Vector Machines. We extend our analysis to severity prediction using PHQ-8 and PCL-C scores and multi-class classification (considering co-occurring conditions). Our results demonstrate that utterance-based chunking significantly improves performance, particularly for text and audio modalities. Decision-level fusion, incorporating LLM predictions, achieves the highest accuracy, with a balanced accuracy of 94.8% for depression and 96.2% for PTSD detection. The combination of CNN-BiLSTM architectures with utterance-level chunking, coupled with the integration of external LLM, provides a powerful and nuanced approach to the detection and assessment of mental health conditions. Our findings highlight the potential of MMML for developing more accurate, accessible, and personalized mental healthcare tools.
- Abstract(参考訳): うつ病やPTSDなどの精神疾患の世界的な流行は、客観的でスケーラブルな診断ツールを必要とする。
伝統的な臨床評価は、しばしばアクセシビリティ、客観性、一貫性の制限に直面している。
本稿では、テキスト、音声、ビデオデータに相補的な情報を活用することで、これらの課題に対処するためのマルチモーダル機械学習の可能性を検討する。
提案手法では,新しいチャンキングや発話ベースのフォーマット戦略など,さまざまなデータ前処理手法を包括的に分析する。
我々は,各モードに対する最先端の埋め込みモデルを体系的に評価し,特徴抽出に畳み込みニューラルネットワーク(CNN)と双方向LSTMネットワーク(BiLSTM)を用いる。
LLM(Large Language Model)予測の新たな統合を含む,データレベル,機能レベル,意思決定レベルの融合技術について検討する。
また,多層パーセプトロン分類器をSupport Vector Machineに置き換える影響についても検討した。
PHQ-8 と PCL-C スコアと多クラス分類(共起条件を考慮した)を用いて,解析結果を重大度予測に拡張する。
以上の結果から,特にテキスト・オーディオ・モダリティにおいて,発話ベースのチャンキングにより性能が著しく向上することが示唆された。
LLM予測を取り入れた決定レベルの融合は、抑うつでは94.8%、PTSD検出では96.2%のバランスの取れた精度で最高精度を達成する。
CNN-BiLSTMアーキテクチャと発話レベルのチャンキングの組み合わせは、外部LLMの統合と相まって、精神状態の検出と評価に対する強力でニュアンスなアプローチを提供する。
本研究は,より正確で,アクセスしやすく,パーソナライズされたメンタルヘルスケアツールを開発するためのMMMLの可能性を明らかにするものである。
関連論文リスト
- ClusMFL: A Cluster-Enhanced Framework for Modality-Incomplete Multimodal Federated Learning in Brain Imaging Analysis [28.767460351377462]
脳画像解析の文脈では、モダリティの不完全性は重要な課題である。
本稿では,機能クラスタリングを利用した新しいMFLフレームワークであるClusMFLを提案する。
ClusMFLは、様々なモダリティの不完全性のレベルにまたがる様々なベースライン手法と比較して、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-02-14T09:33:59Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis [6.30440420617113]
MedTsLLMは、時系列データとリッチな文脈情報をテキスト形式で統合し、生理的信号を解析する汎用多モーダル大規模言語モデル(LLM)フレームワークである。
本研究は,連続時間における意味的セグメンテーション,境界検出,異常検出という,臨床的関連性のある3つのタスクを実行する。
我々のモデルは、深層学習モデル、他のLSM、および複数の医療領域における臨床方法など、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-08-14T18:57:05Z) - Machine Learning Applications in Medical Prognostics: A Comprehensive Review [0.0]
機械学習(ML)は、高度なアルゴリズムと臨床データを統合することで、医学的診断に革命をもたらした。
RFモデルは高次元データの処理において堅牢な性能を示す。
CNNは、がん検出において異常な精度を示している。
LSTMネットワークは、時間的データの解析に優れ、臨床劣化の正確な予測を提供する。
論文 参考訳(メタデータ) (2024-08-05T09:41:34Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
多層構造プロンプトを用いたゼロショット/ファウショットインコンテキスト学習(ICL)のための新しい手法を開発した。
また、ユーザと大規模言語モデル(LLM)間の2つのコミュニケーションスタイルの有効性についても検討する。
本研究は,性別バイアスや偽陰性率などの診断精度とリスク要因を系統的に評価する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Reviewing AI's Role in Non-Muscle-Invasive Bladder Cancer Recurrence Prediction [0.4369058206183195]
非筋浸潤性膀胱癌(NMIBC)は人体に重大な負担を課し、治療に最も費用がかかるがんの1つである。
NMIBCの再発を予測するための現在のツールは、しばしばリスクを過大評価し、精度が低いスコアシステムに依存している。
機械学習(ML)ベースの技術は、分子および臨床データを活用することでNMIBC再発を予測するための有望なアプローチとして登場した。
論文 参考訳(メタデータ) (2024-03-15T17:03:45Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。