論文の概要: LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis
- arxiv url: http://arxiv.org/abs/2602.09379v1
- Date: Tue, 10 Feb 2026 03:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.355439
- Title: LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis
- Title(参考訳): LingxiDiagBench:中国の精神相談・診断におけるLLMのベンチマークのためのマルチエージェントフレームワーク
- Authors: Shihao Xu, Tiancheng Zhou, Jiatong Ma, Yanli Ding, Yiming Yan, Ming Xiao, Guoyi Li, Haiyang Geng, Yunyun Han, Jianhua Chen, Yafeng Deng,
- Abstract要約: 精神疾患は世界中で広く普及している。
精神科医の不足と面接に基づく診断の固有の主観性は、タイムリーで一貫した精神的健康評価に重大な障壁をもたらす。
大規模マルチエージェントベンチマークであるLingxiDiagBenchを提案する。
- 参考スコア(独自算出の注目度): 14.82377002030236
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mental disorders are highly prevalent worldwide, but the shortage of psychiatrists and the inherent subjectivity of interview-based diagnosis create substantial barriers to timely and consistent mental-health assessment. Progress in AI-assisted psychiatric diagnosis is constrained by the absence of benchmarks that simultaneously provide realistic patient simulation, clinician-verified diagnostic labels, and support for dynamic multi-turn consultation. We present LingxiDiagBench, a large-scale multi-agent benchmark that evaluates LLMs on both static diagnostic inference and dynamic multi-turn psychiatric consultation in Chinese. At its core is LingxiDiag-16K, a dataset of 16,000 EMR-aligned synthetic consultation dialogues designed to reproduce real clinical demographic and diagnostic distributions across 12 ICD-10 psychiatric categories. Through extensive experiments across state-of-the-art LLMs, we establish key findings: (1) although LLMs achieve high accuracy on binary depression--anxiety classification (up to 92.3%), performance deteriorates substantially for depression--anxiety comorbidity recognition (43.0%) and 12-way differential diagnosis (28.5%); (2) dynamic consultation often underperforms static evaluation, indicating that ineffective information-gathering strategies significantly impair downstream diagnostic reasoning; (3) consultation quality assessed by LLM-as-a-Judge shows only moderate correlation with diagnostic accuracy, suggesting that well-structured questioning alone does not ensure correct diagnostic decisions. We release LingxiDiag-16K and the full evaluation framework to support reproducible research at https://github.com/Lingxi-mental-health/LingxiDiagBench.
- Abstract(参考訳): メンタル障害は世界中で広く普及しているが、精神科医の不足とインタビューに基づく診断の主観性は、タイムリーで一貫したメンタルヘルスアセスメントに重大な障壁をもたらす。
AI支援精神医学診断の進歩は、現実的な患者シミュレーション、臨床者が検証した診断ラベル、動的マルチターンコンサルテーションのサポートを同時に提供するベンチマークの欠如によって制限されている。
LingxiDiagBenchは、中国語の静的診断推論と動的マルチターン精神科相談の両方でLSMを評価した大規模マルチエージェントベンチマークである。
中心となるLingxiDiag-16Kは、12のICD-10精神医学カテゴリにまたがる実際の臨床統計と診断の分布を再現するために設計された、16,000のEMR対応の総合コンサルテーションダイアログのデータセットである。
1) 2次抑うつ・不安分類(最大92.3%)においてLLMは高い精度を達成するが,抑うつ・不安・不安認識(43.0%)と12ウェイ差分診断(28.5%)では性能が著しく低下する。
我々はLingxiDiag-16Kと、再現可能な研究をサポートするための完全な評価フレームワークをhttps://github.com/Lingxi-mental-health/LingxiDiagBenchでリリースします。
関連論文リスト
- MentalSeek-Dx: Towards Progressive Hypothetico-Deductive Reasoning for Real-world Psychiatric Diagnosis [27.839664095206857]
MentalSeek-Dx Benchは、実際の臨床環境での障害レベルの精神医学診断に特化した最初のベンチマークである。
ICD-11ガイドラインでは、ボード認定精神科医によって注釈された未確認の電子健康記録を712個含む。
MentalSeek-Dxは14Bパラメータしか持たない最先端のSOTA(State-of-the-art)のパフォーマンスを達成し、信頼性のある精神医学診断のための臨床基盤の枠組みを確立した。
論文 参考訳(メタデータ) (2026-02-03T10:03:35Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Psychiatry-Bench: A Multi-Task Benchmark for LLMs in Psychiatry [1.2879523047871226]
PsychiatryBenchは、専門家が検証した精神医学の教科書とケースブックにのみ基づく厳格にキュレートされたベンチマークである。
精神科ベンチは、診断的推論や治療計画から、縦断的フォローアップ、管理計画、臨床アプローチ、シーケンシャルケース分析、および5300件以上の専門家注釈項目からなる多重選択/拡張マッチングフォーマットまで、11種類の質問応答タスクから構成されている。
論文 参考訳(メタデータ) (2025-09-07T20:57:24Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。