論文の概要: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations
- arxiv url: http://arxiv.org/abs/2604.17359v1
- Date: Sun, 19 Apr 2026 10:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.485972
- Title: PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations
- Title(参考訳): サイコベンチ:大規模言語モデルメンタルヘルスシミュレーションにおける疫学的忠実度の検討
- Authors: Patrick Keough,
- Abstract要約: 大きな言語モデルは、臨床訓練、研究、メンタルヘルスツールのために患者をシミュレートするためにますます多くデプロイされている。
LLM患者シミュレーションの最初の疫学的検査である PsychBench を紹介した。
モデルでは, 抽出した個体群を誤って表現しながら, 臨床的に有意な個体を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed to simulate patients for clinical training, research, and mental health tools, yet population-level validity remains largely untested. We introduce PsychBench, the first epidemiological audit of LLM patient simulation: 28,800 profiles from four frontier models (GPT-4o-mini, DeepSeek-V3, Gemini-3-Flash, GLM-4.7) evaluated against NHANES and NESARC-III baselines across 120 intersectional cohorts. The central finding is a coherence-fidelity dissociation: models produce clinically plausible individuals while misrepresenting the populations they are drawn from. Variance compression ranges from 14 percent (GLM-4.7) to 62 percent (DeepSeek-V3), eliminating the distributional tails of clinical reality. Despite test-retest correlations above r = 0.90, 36.66 percent of cases cross diagnostic thresholds between runs. Symptom correlation matrices diverge across demographic groups beyond split-half noise, with transgender populations diverging three to five times more than racial differences. Calibration bias is systematic and asymmetric. Models overestimate depression severity for most groups by 3.6 to 6.1 points (Cohen d = 1.13 to 1.91), consistent with training on clinical corpora with elevated base rates. For transgender women the direction inverts: models capture only 8 to 46 percent of documented minority stress elevation, yielding a -5.42 residual (d = -1.55). Models also attribute irritability to Black men and fatigue to women beyond matched controls, encoding racialized and gendered assumptions. Patterns replicate across US and Chinese architectures, indicating failures tied to current training paradigms rather than isolated implementations. For most users, LLM mental health tools risk pathologizing ordinary distress; for transgender users, algorithmic erasure of genuine need. The patients look right. They do not represent real populations.
- Abstract(参考訳): 大きな言語モデルは、臨床訓練、研究、メンタルヘルスツールのために患者をシミュレートするためにますます多くデプロイされているが、人口レベルの妥当性はほとんどテストされていない。
NHANESおよびNESARC-IIIベースラインを120の交叉コホートで評価した4つのフロンティアモデル(GPT-4o-mini, DeepSeek-V3, Gemini-3-Flash, GLM-4.7)の28,800プロファイルについて紹介した。
その中心となる発見はコヒーレンス・フィデリティの解離(英語版)である:モデルが引き出された集団を誤って表現しながら、臨床的にもっともらしい個人を生産する。
変動圧縮は14% (GLM-4.7) から62% (DeepSeek-V3) まで変化し、臨床現実の分布尾を排除している。
r = 0.90以上のテスト-テスト相関にもかかわらず、36.6%のケースがラン間の診断しきい値を越えた。
症状相関行列は、分裂半減音以上の人口集団に分散し、トランスジェンダーの人口は人種差の3倍から5倍に変化している。
校正バイアスは体系的で非対称である。
ほとんどの集団のうつ病重症度を3.6から6.1ポイント(コーエンd = 1.13から 1.91)と過大評価し、臨床コーパスのトレーニングと基準レートが上昇する。
トランスジェンダーの女性には、方向が逆転する: 記録されたマイノリティストレスの8から46%しか記録されておらず、残差は5.42(d = -1.55)である。
モデルはまた、黒人男性に刺激性があり、女性の疲労は一致した規制を超えたものであり、人種的および性別的な仮定を符号化している。
パターンは米国と中国のアーキテクチャ間で複製され、独立した実装ではなく、現在のトレーニングパラダイムに結びついた失敗を示す。
ほとんどのユーザにとって、LLMのメンタルヘルスツールは、通常の苦痛を謝罪するリスクがある。
患者は正しく見えます。
実際の人口を表すものではない。
関連論文リスト
- Robust Fair Disease Diagnosis in CT Images [6.957497306200416]
クラス不均衡とグループアンダー表現はしばしば一致し、複合的な障害モードを生み出します。
この問題の両軸を対象とする2段階の目標を提案する。
Kinetics-400で事前訓練した3D ResNet-18を用いたFair Disease Diagnosisベンチマークについて検討した。
論文 参考訳(メタデータ) (2026-04-08T03:37:44Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT [8.050646314390763]
基礎モデルを臨床実践に翻訳するには、複合分布シフト下での性能を評価する必要がある。
基礎モデルの特異性欠陥が負のクラスにおける不均一性と関連しているかどうかを検討した。
論文 参考訳(メタデータ) (2026-02-10T23:08:06Z) - Intersectional Fairness in Vision-Language Models for Medical Image Disease Classification [25.30858592524878]
CMAC-MMD(Cross-Modal Alignment Consistency)は、横断的な患者サブグループ間で診断の確実性を標準化するトレーニングフレームワークである。
皮膚科コホートでは, 交叉異常診断ギャップ(正陽性率差$TPR)を0.50から0.26に減らした。
緑内障検診では、TPRが0.41ドルから0.31ドルに値下げされ、より良いAUCが0.72ドル(vs. 0.71ベースライン)となった。
論文 参考訳(メタデータ) (2025-12-17T09:47:29Z) - MeCaMIL: Causality-Aware Multiple Instance Learning for Fair and Interpretable Whole Slide Image Diagnosis [40.3028468133626]
MIL(Multiple Case Learning)は、コンピュータ病理学における全スライド画像(WSI)解析の主流パラダイムとして登場した。
因果関係を意識したMILフレームワークである textbfMeCaMIL は、構造化因果グラフを通じて、階層的共同創設者を明示的にモデル化する。
MeCaMILは優れた公正性を達成する -- 人口格差の分散は、属性全体の平均で65%以上減少する。
論文 参考訳(メタデータ) (2025-11-14T06:47:21Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。