Fugu-MT 論文翻訳(概要): Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance

論文の概要: Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance

arxiv url: http://arxiv.org/abs/2412.10417v1
Date: Mon, 09 Dec 2024 20:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.543154
Title: Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance
Title（参考訳）: メンタルヘルスにおける音声・テキストモダリティの活用 : LLMのパフォーマンスの検討
Authors: Abdelrahman A. Ali, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda,
Abstract要約: 本研究では,マルチモーダル精神保健診断におけるLarge Language Models(LLMs)の可能性について検討した。テキストと音声のモダリティを比較し,LLMが音声入力で等しく動作するかどうかを検討する。
参考スコア（独自算出の注目度）: 0.9074663948713616
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mental health disorders are increasingly prevalent worldwide, creating an urgent need for innovative tools to support early diagnosis and intervention. This study explores the potential of Large Language Models (LLMs) in multimodal mental health diagnostics, specifically for detecting depression and Post Traumatic Stress Disorder through text and audio modalities. Using the E-DAIC dataset, we compare text and audio modalities to investigate whether LLMs can perform equally well or better with audio inputs. We further examine the integration of both modalities to determine if this can enhance diagnostic accuracy, which generally results in improved performance metrics. Our analysis specifically utilizes custom-formulated metrics; Modal Superiority Score and Disagreement Resolvement Score to evaluate how combined modalities influence model performance. The Gemini 1.5 Pro model achieves the highest scores in binary depression classification when using the combined modality, with an F1 score of 0.67 and a Balanced Accuracy (BA) of 77.4%, assessed across the full dataset. These results represent an increase of 3.1% over its performance with the text modality and 2.7% over the audio modality, highlighting the effectiveness of integrating modalities to enhance diagnostic accuracy. Notably, all results are obtained in zero-shot inferring, highlighting the robustness of the models without requiring task-specific fine-tuning. To explore the impact of different configurations on model performance, we conduct binary, severity, and multiclass tasks using both zero-shot and few-shot prompts, examining the effects of prompt variations on performance. The results reveal that models such as Gemini 1.5 Pro in text and audio modalities, and GPT-4o mini in the text modality, often surpass other models in balanced accuracy and F1 scores across multiple tasks.
Abstract（参考訳）: メンタルヘルス障害は世界中に広まり、早期診断と介入を支援する革新的なツールが緊急に必要となる。本研究では,マルチモーダルメンタルヘルス診断におけるLarge Language Models(LLMs)の可能性について検討した。 E-DAICデータセットを用いてテキストとオーディオのモダリティを比較し,LLMが音声入力と等しく動作するかどうかを検討する。さらに、この手法が診断精度を向上させることができるかどうかを判断するために、両方のモダリティの統合について検討する。本分析では,モーダル・スーパーオリティスコアとデアグリーメント・リゾルメンションスコアの組合せがモデル性能にどのような影響を及ぼすかを評価する。 Gemini 1.5 Proモデルでは、F1スコアが0.67、バランスド正確性(BA)が77.4%の2次うつ病分類が最も高いスコアを達成している。これらの結果は、テキストモダリティのパフォーマンスが3.1%向上し、オーディオモダリティが2.7%向上し、診断精度を高めるためのモダリティの統合の有効性が強調された。特に、すべての結果はゼロショット推論で得られ、タスク固有の微調整を必要とせず、モデルの堅牢性を強調している。モデル性能に対する異なる構成の影響を調べるため、ゼロショットプロンプトと少数ショットプロンプトの両方を用いてバイナリ、重大性、マルチクラスタスクを実行し、即時変動がパフォーマンスに与える影響を調べる。その結果,テキスト・オーディオ・モダリティではGemini 1.5 Pro,テキスト・モダリティではGPT-4o mini,バランスの取れた精度ではGPT-4o mini,複数のタスクでF1スコアが他のモデルを上回ることが判明した。

関連論文リスト

Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文参考訳（メタデータ） (2025-04-10T18:00:27Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文参考訳（メタデータ） (2025-03-03T06:46:26Z)
Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文参考訳（メタデータ） (2025-01-27T22:47:51Z)
Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文参考訳（メタデータ） (2025-01-26T02:19:03Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders [0.8437187555622164]
DAAMAudioCNNLSTMとDAAMAudioTransformerを導入する。両モデルとも、抑うつ検出に音声信号を利用する際の重要な説明可能性と効率は、より信頼性が高く、臨床的に有用な診断ツールへの飛躍を表している。
論文参考訳（メタデータ） (2024-08-31T08:50:28Z)
Enhanced Prediction of Ventilator-Associated Pneumonia in Patients with Traumatic Brain Injury Using Advanced Machine Learning Techniques [0.0]
外傷性脳損傷(TBI)患者の呼吸器関連肺炎(VAP)は重大な死亡リスクをもたらす。 TBI患者のVAPのタイムリーな検出と予後は、患者の予後を改善し、医療資源の負担を軽減するために重要である。我々はMIMIC-IIIデータベースを用いて6つの機械学習モデルを実装した。
論文参考訳（メタデータ） (2024-08-02T09:44:18Z)
Low-resource classification of mobility functioning information in clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文参考訳（メタデータ） (2023-12-15T20:59:17Z)
A Few-Shot Approach to Dysarthric Speech Intelligibility Level Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文参考訳（メタデータ） (2023-09-17T17:23:41Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文参考訳（メタデータ） (2022-08-05T10:39:37Z)
On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文参考訳（メタデータ） (2022-03-28T09:12:24Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Prediction of Depression Severity Based on the Prosodic and Semantic Features with Bidirectional LSTM and Time Distributed CNN [14.994852548758825]
抑うつ予測のための注意に基づくマルチモーダリティ音声とテキスト表現を提案する。本モデルは,OzデータセットのDistress Analysis Interview Corpus-Wizardを用いて,参加者のうつ病重症度を推定するために訓練された。実験では、過去の研究よりも統計的に有意な改善が見られた。
論文参考訳（メタデータ） (2022-02-25T01:42:29Z)
MIMO: Mutual Integration of Patient Journey and Medical Ontology for Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文参考訳（メタデータ） (2021-07-20T07:04:52Z)
Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文参考訳（メタデータ） (2020-09-24T01:07:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。