論文の概要: MentalBench: A Benchmark for Evaluating Psychiatric Diagnostic Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12871v1
- Date: Fri, 13 Feb 2026 12:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.943686
- Title: MentalBench: A Benchmark for Evaluating Psychiatric Diagnostic Capability of Large Language Models
- Title(参考訳): MentalBench: 大規模言語モデルの精神診断能力を評価するベンチマーク
- Authors: Hoyun Song, Migyeong Kang, Jisu Shin, Jihyun Kim, Chanbi Park, Hangyeol Yoo, Jihyun An, Alice Oh, Jinyoung Han, KyungTae Lim,
- Abstract要約: MentalBenchは、大規模言語モデル(LLM)における精神医学的診断決定のためのベンチマークである
MentalBenchのコアとなるMentalKGは、精神科医が作った、DSM-5の診断基準と23の精神疾患の鑑別診断規則をコードする知識グラフである。
- 参考スコア(独自算出の注目度): 28.184599359142307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce MentalBench, a benchmark for evaluating psychiatric diagnostic decision-making in large language models (LLMs). Existing mental health benchmarks largely rely on social media data, limiting their ability to assess DSM-grounded diagnostic judgments. At the core of MentalBench is MentalKG, a psychiatrist-built and validated knowledge graph encoding DSM-5 diagnostic criteria and differential diagnostic rules for 23 psychiatric disorders. Using MentalKG as a golden-standard logical backbone, we generate 24,750 synthetic clinical cases that systematically vary in information completeness and diagnostic complexity, enabling low-noise and interpretable evaluation. Our experiments show that while state-of-the-art LLMs perform well on structured queries probing DSM-5 knowledge, they struggle to calibrate confidence in diagnostic decision-making when distinguishing between clinically overlapping disorders. These findings reveal evaluation gaps not captured by existing benchmarks.
- Abstract(参考訳): 我々は,大規模言語モデル(LLMs)における精神医学的診断決定のためのベンチマークであるMentalBenchを紹介する。
既存のメンタルヘルスベンチマークは、ソーシャルメディアのデータに大きく依存しており、DSMに基づく診断判断を評価する能力を制限する。
MentalBenchのコアとなるMentalKGは、精神科医が作った、DSM-5の診断基準と23の精神疾患の鑑別診断規則をコードする知識グラフである。
ゴールデンスタンダードの論理バックボーンとしてMentalKGを用いると,情報完全性や診断の複雑さを体系的に変化させ,低ノイズで解釈可能な評価を可能にする,24,750の合成臨床症例が生成される。
以上の結果から,DSM-5の知識に基づく構造化クエリでは最先端のLCMが良好に機能する一方で,臨床上重複する疾患の鑑別において,診断判断の信頼性の確保に苦慮していることが明らかとなった。
これらの結果から,既存のベンチマークでは得られない評価ギャップが明らかになった。
関連論文リスト
- LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis [14.82377002030236]
精神疾患は世界中で広く普及している。
精神科医の不足と面接に基づく診断の固有の主観性は、タイムリーで一貫した精神的健康評価に重大な障壁をもたらす。
大規模マルチエージェントベンチマークであるLingxiDiagBenchを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:46:05Z) - MentalSeek-Dx: Towards Progressive Hypothetico-Deductive Reasoning for Real-world Psychiatric Diagnosis [27.839664095206857]
MentalSeek-Dx Benchは、実際の臨床環境での障害レベルの精神医学診断に特化した最初のベンチマークである。
ICD-11ガイドラインでは、ボード認定精神科医によって注釈された未確認の電子健康記録を712個含む。
MentalSeek-Dxは14Bパラメータしか持たない最先端のSOTA(State-of-the-art)のパフォーマンスを達成し、信頼性のある精神医学診断のための臨床基盤の枠組みを確立した。
論文 参考訳(メタデータ) (2026-02-03T10:03:35Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Interpretable Neuropsychiatric Diagnosis via Concept-Guided Graph Neural Networks [56.75602443936853]
青少年の5人に1人は、不安、うつ病、行動障害などの精神状態または行動の健康状態と診断されている。
従来の研究では、障害予測にグラフニューラルネットワーク(GNN)アプローチを使用していたが、ブラックボックスのままであり、信頼性と臨床翻訳を制限している。
本研究では,解釈可能な機能接続の概念を符号化する概念に基づく診断フレームワークを提案する。
我々の設計は臨床的に意味のある接続パターンを通じて予測を保証し、解釈可能性と強い予測性能の両方を可能にする。
論文 参考訳(メタデータ) (2025-10-02T19:38:46Z) - Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry [1.2879523047871226]
PsychiatryBenchは、専門家が検証した精神医学の教科書とケースブックにのみ基づく厳格にキュレートされたベンチマークである。
精神科ベンチは、診断的推論や治療計画から、縦断的フォローアップ、管理計画、臨床アプローチ、シーケンシャルケース分析、および5300件以上の専門家注釈項目からなる多重選択/拡張マッチングフォーマットまで、11種類の質問応答タスクから構成されている。
論文 参考訳(メタデータ) (2025-09-07T20:57:24Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。
実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - MAGI: Multi-Agent Guided Interview for Psychiatric Assessment [50.6150986786028]
我々は,ゴールドスタンダードのMini International Neuropsychiatric Interview(MINI)を自動計算ナビゲーションに変換する最初のフレームワークであるMAGIを紹介する。
臨床検査法, 会話適応性, 説明可能な推論を併用することにより, MAGI は LLM 支援型メンタルヘルスアセスメントを推し進めることを示す。
論文 参考訳(メタデータ) (2025-04-25T11:08:27Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - RobIn: A Robust Interpretable Deep Network for Schizophrenia Diagnosis [12.180396034315807]
統合失調症は、長く複雑な診断プロセスを必要とする重度の精神疾患である。
脳画像データから統合失調症の診断にディープラーニングを応用しようとする試みは、将来性を示しているが、大きなトレーニングと応用のギャップに悩まされている。
我々は、アクセスしやすいデータに焦点をあてて、このトレーニングとアプリケーション間のギャップを減らすことを提案する。
論文 参考訳(メタデータ) (2022-03-31T15:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。