論文の概要: Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives
- arxiv url: http://arxiv.org/abs/2512.20298v1
- Date: Tue, 23 Dec 2025 12:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.861277
- Title: Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives
- Title(参考訳): パターン対患者:初対人ナラティブによる個人性障害診断における精神保健専門家に対するLLMの評価
- Authors: Karolina Drożdż, Kacper Dudzic, Anna Sterna, Marcin Moskalewicz,
- Abstract要約: トップパフォーマンスのGemini Proモデルは、全体の診断精度を21.91ポイント上回った。
BPD(F1 = 83.4 と F1 = 80.0)の同定に長けたモデルと人間の専門家の両方が、重度に診断されていないPD(F1 = 6.7 vs. 50.0)は、価値に満ちた「ナルシシズム」という用語への反感を示す。
以上の結果から,LSMは複雑な1対1の臨床データを解釈する能力が高いが,信頼性やバイアスの問題に悩まされていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing reliance on LLMs for psychiatric self-assessment raises questions about their ability to interpret qualitative patient narratives. We present the first direct comparison between state-of-the-art LLMs and mental health professionals in diagnosing Borderline (BPD) and Narcissistic (NPD) Personality Disorders utilizing Polish-language first-person autobiographical accounts. We show that the top-performing Gemini Pro models surpassed human professionals in overall diagnostic accuracy by 21.91 percentage points (65.48% vs. 43.57%). While both models and human experts excelled at identifying BPD (F1 = 83.4 & F1 = 80.0, respectively), models severely underdiagnosed NPD (F1 = 6.7 vs. 50.0), showing a reluctance toward the value-laden term "narcissism." Qualitatively, models provided confident, elaborate justifications focused on patterns and formal categories, while human experts remained concise and cautious, emphasizing the patient's sense of self and temporal experience. Our findings demonstrate that while LLMs are highly competent at interpreting complex first-person clinical data, they remain subject to critical reliability and bias issues.
- Abstract(参考訳): 精神医学的自己評価のためのLSMへの依存が高まると、定性的な患者の物語を解釈する能力について疑問が持ち上がる。
ポーランド語1対1の自伝的アカウントを用いたBorderline(BPD)とNalcissistic(NPD)の診断における、最先端のLCMとメンタルヘルス専門家の直接比較を行った。
トップパフォーマンスのGemini Proモデルは、全体の診断精度を21.91ポイント(65.48%対43.57%)上回った。
BPD(F1 = 83.4 と F1 = 80.0 )の同定には優れたモデルと人間の専門家の両方が優れていたが、NPD(F1 = 6.7 対 50.0 )は重度に診断されていない(F1 = 6.7 対 50.0 )。
質的には、モデルがパターンや形式的なカテゴリーに焦点をあてた自信と精巧な正当化を提供し、一方で人間の専門家は簡潔で慎重なままであり、患者の自己と時間的経験の感覚を強調した。
以上の結果から,LSMは複雑な1対1の臨床データを解釈する能力が高いが,信頼性やバイアスの問題に悩まされていることが示唆された。
関連論文リスト
- AI-Powered Early Diagnosis of Mental Health Disorders from Real-World Clinical Conversations [7.061237517845673]
メンタルヘルス障害は、世界中で障害の主な原因となっている。
うつ病、不安症、外傷後ストレス障害(PTSD)などの症状は、しばしば診断または誤診される。
プライマリ・ケア・セッティングでは、提供者は60%以上のケースでうつ病や不安を誤認している。
論文 参考訳(メタデータ) (2025-10-16T17:50:04Z) - Mapping Patient-Perceived Physician Traits from Nationwide Online Reviews with LLMs [3.364244912862208]
本稿では,5つの人格特性と5つの患者主観的判断を推定する大規模言語モデル(LLM)に基づくパイプラインを提案する。
この分析は、米国の医師226,999人の4100万人の患者のレビューを含む。
論文 参考訳(メタデータ) (2025-10-05T02:16:35Z) - Sense of Self and Time in Borderline Personality. A Comparative Robustness Study with Generative AI [0.0]
本研究では,境界性パーソナリティ障害(BPD)における一人称経験の質的分析を支援するための大規模言語モデル(LLM)の能力について検討する。
元の研究者の解釈スタイルを模倣するために、3つのLSMを比較した。
その結果,GPTでは0%,Claudeでは42%,Geminiでは58%,Jaccard係数は0.21-0.28であった。
ジェミニの出力は人間の分析に最もよく似ており、GPTやClaude(p 0.0001)よりも高い精度で評価され、盲目の専門家によって人間であると判断された。
論文 参考訳(メタデータ) (2025-08-26T13:13:47Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Detecting PTSD in Clinical Interviews: A Comparative Analysis of NLP Methods and Large Language Models [6.916082619621498]
外傷後ストレス障害 (PTSD) は, 臨床現場ではまだ診断されていない。
本研究では,臨床面接書からPTSDを検出するための自然言語処理手法について検討した。
論文 参考訳(メタデータ) (2025-04-01T22:06:28Z) - MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders [59.515827458631975]
メンタルヘルス障害は世界で最も深刻な病気の1つである。
プライバシーに関する懸念は、パーソナライズされた治療データのアクセシビリティを制限する。
MentalArenaは、言語モデルをトレーニングするためのセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T13:06:40Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Empowering Psychotherapy with Large Language Models: Cognitive
Distortion Detection through Diagnosis of Thought Prompting [82.64015366154884]
本研究では,認知的歪み検出の課題について検討し,思考の早期発見(DoT)を提案する。
DoTは、事実と思考を分離するための主観的評価、思考と矛盾する推論プロセスを引き出すための対照的な推論、認知スキーマを要約するスキーマ分析という3つの段階を通して、患者のスピーチの診断を行う。
実験により、DoTは認知的歪み検出のためのChatGPTよりも大幅に改善され、一方で人間の専門家が承認した高品質な合理性を生成することが示された。
論文 参考訳(メタデータ) (2023-10-11T02:47:21Z) - The Capability of Large Language Models to Measure Psychiatric
Functioning [9.938814639951842]
Med-PaLM 2は、様々な精神疾患にまたがる精神機能を評価することができる。
最強のパフォーマンスは、標準化された評価に基づく抑うつスコアの予測であった。
その結果,一般臨床言語モデルが精神医学的リスクを柔軟に予測できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T15:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。