論文の概要: MLlm-DR: Towards Explainable Depression Recognition with MultiModal Large Language Models
- arxiv url: http://arxiv.org/abs/2507.05591v1
- Date: Tue, 08 Jul 2025 01:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.481479
- Title: MLlm-DR: Towards Explainable Depression Recognition with MultiModal Large Language Models
- Title(参考訳): MLlm-DR:マルチモーダル大言語モデルによる説明可能な抑うつ認識を目指して
- Authors: Wei Zhang, Juan Chen, En Zhu, Wenhong Cheng, YunPeng Li, Yanbo J. Wang,
- Abstract要約: 自動うつ病診断は、インタビュービデオからのマルチモーダル情報を分析し、参加者のうつ病スコアを予測することを目的としている。
これまでの研究では、これらのスコアがどのように決定されたかを明確に説明できず、臨床実践における導入を制限することが多かった。
本稿では,マルチモーダル情報入力を理解でき,説明可能なうつ病診断を支援する新しい多モーダル大言語モデル(MLlm-DR)を提案する。
- 参考スコア(独自算出の注目度): 28.873959594226605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated depression diagnosis aims to analyze multimodal information from interview videos to predict participants' depression scores. Previous studies often lack clear explanations of how these scores were determined, limiting their adoption in clinical practice. While the advent of LLMs provides a possible pathway for explainable depression diagnosis, current LLMs capable of processing multimodal data lack training on interview data, resulting in poor diagnostic performance when used directly. In this paper, we propose a novel multimodal large language model (MLlm-DR) that can understand multimodal information inputs and supports explainable depression diagnosis. MLlm-DR integrates a smaller LLMs and a lightweight query module (LQ-former). Specifically, the smaller LLMs is designed to generate depression scores and corresponding evaluation rationales. To enhance its logical reasoning for domain-specific tasks while maintaining practicality, we constructed a robust training dataset to fine-tune it. Meanwhile, the LQ-former captures depression-related features from speech and visual data, aiding the model's ability to process multimodal information, to achieve comprehensive depression diagnosis. Our approach achieves state-of-the-art results on two interview-based benchmark datasets, CMDC and E-DAIC-WOZ, demonstrating its effectiveness and superiority.
- Abstract(参考訳): 自動うつ病診断は、インタビュービデオからのマルチモーダル情報を分析し、参加者のうつ病スコアを予測することを目的としている。
これまでの研究では、これらのスコアがどのように決定されたかを明確に説明できず、臨床実践における導入を制限することが多かった。
LLMの出現は、説明可能なうつ病診断の経路を提供するが、現在のLLMは、マルチモーダルデータを処理できるが、インタビューデータに対するトレーニングが欠如しており、直接使用すると診断性能が低下する。
本稿では,マルチモーダル情報入力を理解し,説明可能なうつ病診断を支援する,新しいマルチモーダル大言語モデル(MLlm-DR)を提案する。
MLlm-DRはLLMと軽量クエリモジュール(LQ-former)を統合している。
具体的には、小さめのLLMは、抑うつスコアとそれに対応する評価論理を生成するように設計されている。
実践性を維持しつつ、ドメイン固有のタスクの論理的推論を強化するため、我々はそれを微調整する堅牢なトレーニングデータセットを構築した。
一方、LQ-formerは、音声や視覚データからうつ病に関連する特徴を捉え、モデルがマルチモーダル情報を処理し、包括的なうつ病診断を実現するのに役立つ。
提案手法は,CMDCとE-DAIC-WOZの2つのベンチマークデータを用いて,その有効性と優位性を示す。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Decoding Rarity: Large Language Models in the Diagnosis of Rare Diseases [1.9662978733004604]
大型言語モデル(LLM)は稀な疾患研究を変革する有望な能力を示している。
本稿では,レアな疾患の解析におけるLSMの統合について検討し,重要な進歩と重要な研究を取り上げる。
論文 参考訳(メタデータ) (2025-05-18T15:42:15Z) - Generating Medically-Informed Explanations for Depression Detection using LLMs [1.325953054381901]
ソーシャルメディアデータからうつ病を早期に検出することは、タイムリーな介入の貴重な機会となる。
本稿では,LLM-MTD(Large Language Model for Multi-Task Depression Detection)を提案する。
論文 参考訳(メタデータ) (2025-03-18T19:23:22Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。