論文の概要: MentalSeek-Dx: Towards Progressive Hypothetico-Deductive Reasoning for Real-world Psychiatric Diagnosis
- arxiv url: http://arxiv.org/abs/2602.03340v1
- Date: Tue, 03 Feb 2026 10:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.383787
- Title: MentalSeek-Dx: Towards Progressive Hypothetico-Deductive Reasoning for Real-world Psychiatric Diagnosis
- Title(参考訳): メンタルSeek-Dx : 現実の精神医学診断のための進歩的仮説推論を目指して
- Authors: Xiao Sun, Yuming Yang, Junnan Zhu, Jiang Zhong, Xinyu Zhou, Kaiwen Wei,
- Abstract要約: MentalSeek-Dx Benchは、実際の臨床環境での障害レベルの精神医学診断に特化した最初のベンチマークである。
ICD-11ガイドラインでは、ボード認定精神科医によって注釈された未確認の電子健康記録を712個含む。
MentalSeek-Dxは14Bパラメータしか持たない最先端のSOTA(State-of-the-art)のパフォーマンスを達成し、信頼性のある精神医学診断のための臨床基盤の枠組みを確立した。
- 参考スコア(独自算出の注目度): 27.839664095206857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mental health disorders represent a burgeoning global public health challenge. While Large Language Models (LLMs) have demonstrated potential in psychiatric assessment, their clinical utility is severely constrained by benchmarks that lack ecological validity and fine-grained diagnostic supervision. To bridge this gap, we introduce \textbf{MentalDx Bench}, the first benchmark dedicated to disorder-level psychiatric diagnosis within real-world clinical settings. Comprising 712 de-identified electronic health records annotated by board-certified psychiatrists under ICD-11 guidelines, the benchmark covers 76 disorders across 16 diagnostic categories. Evaluation of 18 LLMs reveals a critical \textit{paradigm misalignment}: strong performance at coarse diagnostic categorization contrasts with systematic failure at disorder-level diagnosis, underscoring a gap between pattern-based modeling and clinical hypothetico-deductive reasoning. In response, we propose \textbf{MentalSeek-Dx}, a medical-specialized LLM trained to internalize this clinical reasoning process through supervised trajectory construction and curriculum-based reinforcement learning. Experiments on MentalDx Bench demonstrate that MentalSeek-Dx achieves state-of-the-art (SOTA) performance with only 14B parameters, establishing a clinically grounded framework for reliable psychiatric diagnosis.
- Abstract(参考訳): メンタルヘルス障害は世界的な公衆衛生問題である。
LLM(Large Language Models)は精神医学的評価の可能性を実証しているが、その臨床的有用性は、生態学的妥当性と詳細な診断監督に欠けるベンチマークによって厳しく制限されている。
このギャップを埋めるために、実際の臨床環境での障害レベルの精神医学診断に特化した最初のベンチマークである「textbf{MentalDx Bench}」を紹介します。
ICD-11ガイドラインに基づいて、ボード認定精神科医によって注釈付けされた712の未確認電子健康記録を補完し、このベンチマークは16の診断カテゴリーにわたる76の障害をカバーしている。
粗い診断分類における強い性能は、障害レベルの診断における系統的障害とは対照的であり、パターンベースモデリングと臨床仮説決定的推論とのギャップを浮き彫りにしている。
そこで我々は,この臨床推論過程を教師付き軌道構築とカリキュラムに基づく強化学習によって内部化するよう訓練された医学専門の LLM である \textbf{MentalSeek-Dx} を提案する。
MentalDx Benchの実験では、MentalSeek-Dxは14Bパラメータだけで最先端(SOTA)のパフォーマンスを達成し、信頼性のある精神医学診断のための臨床基盤の枠組みを確立している。
関連論文リスト
- AI-Powered Early Diagnosis of Mental Health Disorders from Real-World Clinical Conversations [7.061237517845673]
メンタルヘルス障害は、世界中で障害の主な原因となっている。
うつ病、不安症、外傷後ストレス障害(PTSD)などの症状は、しばしば診断または誤診される。
プライマリ・ケア・セッティングでは、提供者は60%以上のケースでうつ病や不安を誤認している。
論文 参考訳(メタデータ) (2025-10-16T17:50:04Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Interpretable Neuropsychiatric Diagnosis via Concept-Guided Graph Neural Networks [56.75602443936853]
青少年の5人に1人は、不安、うつ病、行動障害などの精神状態または行動の健康状態と診断されている。
従来の研究では、障害予測にグラフニューラルネットワーク(GNN)アプローチを使用していたが、ブラックボックスのままであり、信頼性と臨床翻訳を制限している。
本研究では,解釈可能な機能接続の概念を符号化する概念に基づく診断フレームワークを提案する。
我々の設計は臨床的に意味のある接続パターンを通じて予測を保証し、解釈可能性と強い予測性能の両方を可能にする。
論文 参考訳(メタデータ) (2025-10-02T19:38:46Z) - Unveiling the Landscape of Clinical Depression Assessment: From Behavioral Signatures to Psychiatric Reasoning [43.26860213892083]
うつ病は世界中の何百万もの人に影響を及ぼす広範な精神疾患である。
ほとんどの研究は、限定的または非クリニカルな検証データに依存しており、実世界の有効性よりも複雑なモデル設計を優先することが多い。
C-MIND (C-MIND) は, 臨床神経精神医学的マルチモーダル診断データセットであり, 実際の病院訪問から2年以上経過した。
参加者は3つの構造化された精神医学タスクを完了し、情報的オーディオ、ビデオ、転写、機能的近赤外分光(fNIRS)信号が記録された専門家臨床医から最終診断を受ける。
論文 参考訳(メタデータ) (2025-08-06T15:13:24Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。
Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。
実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-21T16:24:49Z) - MAGI: Multi-Agent Guided Interview for Psychiatric Assessment [50.6150986786028]
我々は,ゴールドスタンダードのMini International Neuropsychiatric Interview(MINI)を自動計算ナビゲーションに変換する最初のフレームワークであるMAGIを紹介する。
臨床検査法, 会話適応性, 説明可能な推論を併用することにより, MAGI は LLM 支援型メンタルヘルスアセスメントを推し進めることを示す。
論文 参考訳(メタデータ) (2025-04-25T11:08:27Z) - PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice [20.166682569070073]
LLM(Large Language Models)は、医療資源の不足や精神科臨床における診断整合性の低下といった問題に対処するための潜在的な解決策を提供する。
精神科臨床現場における LLM の実用性を評価するためのベンチマークシステム PsychBench を提案する。
既存のモデルは大きな可能性を秘めているが,精神科臨床における意思決定ツールとしてはまだ不十分である。
論文 参考訳(メタデータ) (2025-02-28T12:17:41Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。