論文の概要: Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance
- arxiv url: http://arxiv.org/abs/2412.10417v1
- Date: Mon, 09 Dec 2024 20:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 07:36:53.006363
- Title: Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance
- Title(参考訳): メンタルヘルスにおける音声・テキストモダリティの活用 : LLMのパフォーマンスの検討
- Authors: Abdelrahman A. Ali, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda,
- Abstract要約: 本研究では,マルチモーダル精神保健診断におけるLarge Language Models(LLMs)の可能性について検討した。
テキストと音声のモダリティを比較し,LLMが音声入力で等しく動作するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.9074663948713616
- License:
- Abstract: Mental health disorders are increasingly prevalent worldwide, creating an urgent need for innovative tools to support early diagnosis and intervention. This study explores the potential of Large Language Models (LLMs) in multimodal mental health diagnostics, specifically for detecting depression and Post Traumatic Stress Disorder through text and audio modalities. Using the E-DAIC dataset, we compare text and audio modalities to investigate whether LLMs can perform equally well or better with audio inputs. We further examine the integration of both modalities to determine if this can enhance diagnostic accuracy, which generally results in improved performance metrics. Our analysis specifically utilizes custom-formulated metrics; Modal Superiority Score and Disagreement Resolvement Score to evaluate how combined modalities influence model performance. The Gemini 1.5 Pro model achieves the highest scores in binary depression classification when using the combined modality, with an F1 score of 0.67 and a Balanced Accuracy (BA) of 77.4%, assessed across the full dataset. These results represent an increase of 3.1% over its performance with the text modality and 2.7% over the audio modality, highlighting the effectiveness of integrating modalities to enhance diagnostic accuracy. Notably, all results are obtained in zero-shot inferring, highlighting the robustness of the models without requiring task-specific fine-tuning. To explore the impact of different configurations on model performance, we conduct binary, severity, and multiclass tasks using both zero-shot and few-shot prompts, examining the effects of prompt variations on performance. The results reveal that models such as Gemini 1.5 Pro in text and audio modalities, and GPT-4o mini in the text modality, often surpass other models in balanced accuracy and F1 scores across multiple tasks.
- Abstract(参考訳): メンタルヘルス障害は世界中に広まり、早期診断と介入を支援する革新的なツールが緊急に必要となる。
本研究では,マルチモーダルメンタルヘルス診断におけるLarge Language Models(LLMs)の可能性について検討した。
E-DAICデータセットを用いてテキストとオーディオのモダリティを比較し,LLMが音声入力と等しく動作するかどうかを検討する。
さらに、この手法が診断精度を向上させることができるかどうかを判断するために、両方のモダリティの統合について検討する。
本分析では,モーダル・スーパーオリティスコアとデアグリーメント・リゾルメンションスコアの組合せがモデル性能にどのような影響を及ぼすかを評価する。
Gemini 1.5 Proモデルでは、F1スコアが0.67、バランスド正確性(BA)が77.4%の2次うつ病分類が最も高いスコアを達成している。
これらの結果は、テキストモダリティのパフォーマンスが3.1%向上し、オーディオモダリティが2.7%向上し、診断精度を高めるためのモダリティの統合の有効性が強調された。
特に、すべての結果はゼロショット推論で得られ、タスク固有の微調整を必要とせず、モデルの堅牢性を強調している。
モデル性能に対する異なる構成の影響を調べるため、ゼロショットプロンプトと少数ショットプロンプトの両方を用いてバイナリ、重大性、マルチクラスタスクを実行し、即時変動がパフォーマンスに与える影響を調べる。
その結果,テキスト・オーディオ・モダリティではGemini 1.5 Pro,テキスト・モダリティではGPT-4o mini,バランスの取れた精度ではGPT-4o mini,複数のタスクでF1スコアが他のモデルを上回ることが判明した。
関連論文リスト
- Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders [0.8437187555622164]
DAAMAudioCNNLSTMとDAAMAudioTransformerを導入する。
両モデルとも、抑うつ検出に音声信号を利用する際の重要な説明可能性と効率は、より信頼性が高く、臨床的に有用な診断ツールへの飛躍を表している。
論文 参考訳(メタデータ) (2024-08-31T08:50:28Z) - Enhanced Prediction of Ventilator-Associated Pneumonia in Patients with Traumatic Brain Injury Using Advanced Machine Learning Techniques [0.0]
外傷性脳損傷(TBI)患者の呼吸器関連肺炎(VAP)は重大な死亡リスクをもたらす。
TBI患者のVAPのタイムリーな検出と予後は、患者の予後を改善し、医療資源の負担を軽減するために重要である。
我々はMIMIC-IIIデータベースを用いて6つの機械学習モデルを実装した。
論文 参考訳(メタデータ) (2024-08-02T09:44:18Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-17T17:23:41Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Prediction of Depression Severity Based on the Prosodic and Semantic
Features with Bidirectional LSTM and Time Distributed CNN [14.994852548758825]
抑うつ予測のための注意に基づくマルチモーダリティ音声とテキスト表現を提案する。
本モデルは,OzデータセットのDistress Analysis Interview Corpus-Wizardを用いて,参加者のうつ病重症度を推定するために訓練された。
実験では、過去の研究よりも統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2022-02-25T01:42:29Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。