論文の概要: Optimizing Large Language Models for Detecting Symptoms of Comorbid Depression or Anxiety in Chronic Diseases: Insights from Patient Messages
- arxiv url: http://arxiv.org/abs/2503.11384v1
- Date: Fri, 14 Mar 2025 13:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.333065
- Title: Optimizing Large Language Models for Detecting Symptoms of Comorbid Depression or Anxiety in Chronic Diseases: Insights from Patient Messages
- Title(参考訳): 慢性疾患における抑うつ・不安の症状検出のための大規模言語モデルの最適化:患者メッセージからの考察
- Authors: Jiyeong Kim, Stephen P. Ma, Michael L. Chen, Isaac R. Galatzer-Levy, John Torous, Peter J. van Roessel, Christopher Sharp, Michael A. Pfeffer, Carolyn I. Rodriguez, Eleni Linos, Jonathan H. Chen,
- Abstract要約: 糖尿病患者は、うつ病や不安のリスクが高く、管理を複雑にしている。
本研究は,患者メッセージからこれらの症状を検出するための言語モデル(LLM)の性能を評価した。
- 参考スコア(独自算出の注目度): 4.419296403133379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patients with diabetes are at increased risk of comorbid depression or anxiety, complicating their management. This study evaluated the performance of large language models (LLMs) in detecting these symptoms from secure patient messages. We applied multiple approaches, including engineered prompts, systemic persona, temperature adjustments, and zero-shot and few-shot learning, to identify the best-performing model and enhance performance. Three out of five LLMs demonstrated excellent performance (over 90% of F-1 and accuracy), with Llama 3.1 405B achieving 93% in both F-1 and accuracy using a zero-shot approach. While LLMs showed promise in binary classification and handling complex metrics like Patient Health Questionnaire-4, inconsistencies in challenging cases warrant further real-life assessment. The findings highlight the potential of LLMs to assist in timely screening and referrals, providing valuable empirical knowledge for real-world triage systems that could improve mental health care for patients with chronic diseases.
- Abstract(参考訳): 糖尿病患者は、うつ病や不安のリスクが高く、管理を複雑にしている。
本研究は,患者メッセージからこれらの症状を検出するための言語モデル(LLM)の性能を評価した。
提案手法は,工学的プロンプト,システム的ペルソナ,温度調整,ゼロショットと少数ショットの学習を含む複数のアプローチを適用し,最高の性能モデルを特定し,性能を向上させる。
5基のLLMのうち3基は優れた性能(F-1と精度の90%以上)を示し、Llama 3.1 405BはF-1と0ショットの両方で93%、精度は0ショットで達成した。
LLMは、患者健康アンケート4のような複雑なメトリクスのバイナリ分類や扱いにおいて有望であるが、課題における矛盾は、さらなる実生活評価を保証している。
この結果は、LLMsがタイムリーなスクリーニングとレファレンスを支援する可能性を強調し、慢性疾患患者のメンタルヘルスを改善することができる現実世界のトリアージシステムに貴重な経験的知識を提供する。
関連論文リスト
- LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health Conditions [0.0]
DeepSeek R1は疾患レベルの精度が76%、全体的な精度が82%に達し、O3 Miniを上回った。
しかし、どちらのモデルも呼吸疾患の分類に苦慮し、DeepSeek R1では40%、O3 Miniでは20%のアキュラシーを記録した。
論文 参考訳(メタデータ) (2025-03-13T15:54:26Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Large Language Models for Patient Comments Multi-Label Classification [3.670008893193884]
本研究は,多ラベルテキスト分類(MLTC)におけるLLM(Large Language Models)の活用について検討する。
GPT-4 ターボは分類を行うために利用された。
プロンプトエンジニアリングフレームワークを使用することで、ゼロショット学習、インコンテキスト学習、チェーンオブ思考プロンプトを実験した。
論文 参考訳(メタデータ) (2024-10-31T00:29:52Z) - AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow [33.8495939261319]
本稿では,AIPatient Knowledge Graph (AIPatient KG) を入力とし,生成バックボーンとしてReasoning Retrieval-Augmented Generation (RAG) を開発した。
Reasoning RAGは、検索、KGクエリ生成、抽象化、チェッカー、書き直し、要約を含むタスクにまたがる6つのLLMエージェントを活用する。
ANOVA F-value 0.6126, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.6126, p>0.1)。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - Safe and Interpretable Estimation of Optimal Treatment Regimes [54.257304443780434]
我々は、最適な治療体制を特定するための安全かつ解釈可能な枠組みを運用する。
本研究は患者の医療歴と薬理学的特徴に基づくパーソナライズされた治療戦略を支援する。
論文 参考訳(メタデータ) (2023-10-23T19:59:10Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。