論文の概要: A Systematic Evaluation of Large Language Models for PTSD Severity Estimation: The Role of Contextual Knowledge and Modeling Strategies
- arxiv url: http://arxiv.org/abs/2602.06015v1
- Date: Thu, 05 Feb 2026 18:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.139519
- Title: A Systematic Evaluation of Large Language Models for PTSD Severity Estimation: The Role of Contextual Knowledge and Modeling Strategies
- Title(参考訳): PTSD重大度推定のための大規模言語モデルの体系的評価:文脈知識とモデリング戦略の役割
- Authors: Panagiotis Kaliosis, Adithya V Ganesan, Oscar N. E. Kjell, Whitney Ringwald, Scott Feltman, Melissa A. Carr, Dimitris Samaras, Camilo Ruggero, Benjamin J. Luft, Roman Kotov, Andrew H. Schwartz,
- Abstract要約: 大規模言語モデル(LLM)は、精神的な健康状態を評価するために、ゼロショット方式でますます使われている。
本研究は,11種類のLLMの性能を評価するために,自然言語の物語と自己報告のPTSD重症度スコアを1,437名に分類した。
- 参考スコア(独自算出の注目度): 24.732452865928053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being used in a zero-shot fashion to assess mental health conditions, yet we have limited knowledge on what factors affect their accuracy. In this study, we utilize a clinical dataset of natural language narratives and self-reported PTSD severity scores from 1,437 individuals to comprehensively evaluate the performance of 11 state-of-the-art LLMs. To understand the factors affecting accuracy, we systematically varied (i) contextual knowledge like subscale definitions, distribution summary, and interview questions, and (ii) modeling strategies including zero-shot vs few shot, amount of reasoning effort, model sizes, structured subscales vs direct scalar prediction, output rescaling and nine ensemble methods. Our findings indicate that (a) LLMs are most accurate when provided with detailed construct definitions and context of the narrative; (b) increased reasoning effort leads to better estimation accuracy; (c) performance of open-weight models (Llama, Deepseek), plateau beyond 70B parameters while closed-weight (o3-mini, gpt-5) models improve with newer generations; and (d) best performance is achieved when ensembling a supervised model with the zero-shot LLMs. Taken together, the results suggest choice of contextual knowledge and modeling strategies is important for deploying LLMs to accurately assess mental health.
- Abstract(参考訳): 大規模言語モデル(LLM)は、精神的な健康状態を評価するために、ゼロショット方式でますます使われているが、どの要因がそれらの正確性に影響を与えるかは、限られた知識しか持たない。
本研究では1,437人の自己申告PTSD重症度スコアと自然言語物語の臨床データセットを用いて,11個の最先端LCMの性能を総合的に評価する。
正確性に影響を与える要因を理解するために,我々は体系的に変化した
一 サブスケール定義、流通概要、面接質問等の文脈知識
二 ゼロショット対少数ショット、推論の量、モデルサイズ、構造化サブスケール対直接スカラー予測、出力再スケーリング、9種類のアンサンブル手法を含むモデリング戦略。
私たちの発見は
(a) LLMは、詳細な構成定義及び物語の文脈を提供する場合に最も正確である。
(b)推理努力の増加により、推定精度が向上する。
(c) オープンウェイトモデル(Llama, Deepseek)の性能, クローズドウェイトモデル(o3-mini, gpt-5)は, 新しい世代で改善され,
(d)ゼロショットLLMで教師付きモデルをアンサンブルする場合に、最高の性能が達成される。
その結果,LLMを配置してメンタルヘルスを正確に評価する上で,文脈的知識の選択とモデリング戦略が重要であることが示唆された。
関連論文リスト
- OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Efficient or Powerful? Trade-offs Between Machine Learning and Deep Learning for Mental Illness Detection on Social Media [0.036136619420474754]
ソーシャルメディアプラットフォームは、うつ病、不安、自殺などの状況に関するユーザー生成の議論を捉え、メンタルヘルスのトレンドに関する貴重な洞察を提供する。
機械学習(ML)とディープラーニング(DL)モデルは、テキストデータからメンタルヘルス状態を分類するためにますます応用されている。
本研究では、ALBERTやGated Recurrent Units(GRU)といったディープラーニングアーキテクチャとともに、ロジスティック回帰、ランダムフォレスト、LightGBMを含む複数のMLモデルを評価する。
その結果,MLモデルとDLモデルでは,中規模データセットの分類性能が同等であることが示唆された。
論文 参考訳(メタデータ) (2025-03-03T00:51:41Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。