論文の概要: When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening
- arxiv url: http://arxiv.org/abs/2605.23148v1
- Date: Fri, 22 May 2026 01:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.157094
- Title: When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening
- Title(参考訳): 症状が不十分な場合:大規模言語モデル精神科検診におけるエビデンス重みパターン
- Authors: Jianfeng Zhu, Megan Korhummel, Ruoming Jin, Karin G. Coifman,
- Abstract要約: 今回我々は,不安障害,大うつ病,外傷後ストレス障害,現在の精神疾患の診断ラベルと組み合わせた555件の半構造化体験面接のSCIDアンコールベンチマークを紹介した。
誤陰性誤りが精神医学的根拠の欠如や症状の差分重み付け,機能障害,保護的内容の手がかりを反映しているかどうかを検討した。
GPT-4.1 MiniとGPT-5 Miniは最も一貫性のある障害特異的な精度を示した。
- 参考スコア(独自算出の注目度): 3.840718882315825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As demand for mental health care outpaces clinician-delivered assessment, scalable screening tools are increasingly needed. Large language models (LLMs) may identify psychiatric risk from patient narratives, but their reliability across diagnoses, demographic subgroups, and evidence-use patterns remains uncertain. We introduce a SCID-anchored benchmark of 555 semi-structured experiential interviews paired with diagnostic reference labels for anxiety disorder, major depressive disorder, post-traumatic stress disorder, and any current mental health disorder. Using zero-shot task-specific prompting, we evaluated five state-of-the-art LLMs and examined whether false-negative errors reflected missed psychiatric evidence or differential weighting of symptom, functional-impairment, and protective-context cues. Performance varied across tasks and models, with accuracy ranging from 0.49 to 0.86 and Matthews correlation coefficients from 0.16 to 0.38. GPT-4.1 Mini and GPT-5 Mini showed the most consistent disorder-specific accuracy. Subgroup analyses found higher depression-classification accuracy among male than female participants, no consistent age-related pattern, and modest non-uniform variation across race strata. Evidence-integration analyses showed that false-negative anxiety and PTSD classifications often contained explicit symptom evidence but were accompanied by preserved functioning, coping ability, or social support. Functional-impairment evidence shifted model outputs toward positive classifications, whereas protective-context evidence shifted outputs away. These findings suggest that LLMs may support scalable psychiatric screening, but their tendency to discount symptom evidence in the presence of preserved functioning or protective context requires careful validation before clinical deployment.
- Abstract(参考訳): 精神保健医療の需要が臨床医が提供した評価を上回っているため、スケーラブルなスクリーニングツールがますます求められている。
大規模言語モデル(LLM)は、患者の物語から精神医学的リスクを特定することができるが、診断、人口統計学的サブグループ、エビデンス・ユース・パターンにまたがる信頼性は依然として不明である。
不安障害, 大うつ病, 外傷後ストレス障害, および現在の精神疾患の診断基準ラベルと組み合わせた555件の半構造化経験的インタビューのSCID-anchoredベンチマークを紹介する。
ゼロショットタスク特異的プロンプトを用いて、5つの最先端LCMを評価し、誤陰誤りが精神医学的証拠の欠如を反映しているか、症状の差分重み付け、機能的障害、および保護的文脈的手がかりについて検討した。
性能はタスクやモデルによって異なり、精度は0.49から0.86、マシューズ相関係数は0.16から0.38である。
GPT-4.1 MiniとGPT-5 Miniは最も一貫性のある障害特異的な精度を示した。
サブグループ分析の結果、男性よりも抑うつ分類の精度が高く、一貫した年齢関連パターンは見られず、人種層間では穏やかな非一様変動が見られた。
Evidence-integration analysisによると、偽陰性不安とPTSD分類はしばしば明示的な症状の証拠を含むが、保存機能、対処能力、社会的支援が伴っていた。
機能障害の証拠はモデル出力を正の分類へとシフトさせ、保護条件の証拠は出力を移動させた。
以上の結果から, LLMは拡張性精神科スクリーニングをサポートする可能性が示唆された。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - Large Language Models as Simulative Agents for Neurodivergent Adult Psychometric Profiles [0.0]
成人神経分岐障害(ADHD)、高機能自閉症スペクトラム障害(ASD)、認知解離症候群(CDS)
大言語モデル(LLM)が、幅広い性格特性よりも、正確に、安定して神経発達特性をモデル化できるかどうかは不明だ。
本研究では, 構造化質的面接において, LLMが実際の個人に近似した心理測定応答を生成できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-16T10:16:58Z) - Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives [0.0]
トップパフォーマンスのGemini Proモデルは、全体の診断精度を21.91ポイント上回った。
BPD(F1 = 83.4 と F1 = 80.0)の同定に長けたモデルと人間の専門家の両方が、重度に診断されていないPD(F1 = 6.7 vs. 50.0)は、価値に満ちた「ナルシシズム」という用語への反感を示す。
以上の結果から,LSMは複雑な1対1の臨床データを解釈する能力が高いが,信頼性やバイアスの問題に悩まされていることが示唆された。
論文 参考訳(メタデータ) (2025-12-23T12:05:01Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Detecting PTSD in Clinical Interviews: A Comparative Analysis of NLP Methods and Large Language Models [6.916082619621498]
外傷後ストレス障害 (PTSD) は, 臨床現場ではまだ診断されていない。
本研究では,臨床面接書からPTSDを検出するための自然言語処理手法について検討した。
論文 参考訳(メタデータ) (2025-04-01T22:06:28Z) - Investigating Large Language Models in Inferring Personality Traits from User Conversations [5.705775078773656]
大規模言語モデル(LLM)は、多様なドメインにまたがる目覚ましい人間のような能力を示している。
本研究は, GPT-4o と GPT-4o mini が, ビッグファイブの性格特性を推測し, ユーザの会話から BFI-10 項目のスコアを生成できるかどうかを評価する。
論文 参考訳(メタデータ) (2025-01-13T18:09:58Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - Detecting Parkinsonian Tremor from IMU Data Collected In-The-Wild using
Deep Multiple-Instance Learning [59.74684475991192]
パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人口の約1%に影響を与える徐々に進化する神経学的疾患である。
PD症状には、震動、剛性、ブレイキネジアがある。
本稿では,スマートフォン端末から受信したIMU信号に基づいて,PDに関連するトレモラスなエピソードを自動的に識別する手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。