論文の概要: Evaluating an evidence-guided reinforcement learning framework in aligning light-parameter large language models with decision-making cognition in psychiatric clinical reasoning
- arxiv url: http://arxiv.org/abs/2602.06449v1
- Date: Fri, 06 Feb 2026 07:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.278352
- Title: Evaluating an evidence-guided reinforcement learning framework in aligning light-parameter large language models with decision-making cognition in psychiatric clinical reasoning
- Title(参考訳): 精神科臨床推論における軽度大言語モデルと意思決定認知の整合性に関する証拠誘導強化学習フレームワークの評価
- Authors: Xinxin Lin, Guangxin Dai, Yi Zhong, Xiang Li, Xue Xiao, Yixin Zhang, Zhengdong Wu, Yongbo Zheng, Runchuan Zhu, Ming Zhao, Huizi Yu, Shuo Wu, Jun Zhao, Lingming Hu, Yumei Wang, Ping Yin, Joey W. Y. Chan, Ngan Yin Chan, Sijing Chen, Yun Kwok Wing, Lin Lu, Xin Ma, Lizhou Fan,
- Abstract要約: 大規模言語モデル(LLM)は、医学的意思決定を支援するための変革的な可能性を持っているが、その精神医学への応用は幻覚や表面的推論によって制限されている。
本稿では,LLMの内部推論と専門的な精神医学的実践の整合性を考慮した強化学習フレームワークであるClinMPOを紹介する。
- 参考スコア(独自算出の注目度): 29.976546632432512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) hold transformative potential for medical decision support yet their application in psychiatry remains constrained by hallucinations and superficial reasoning. This limitation is particularly acute in light-parameter LLMs which are essential for privacy-preserving and efficient clinical deployment. Existing training paradigms prioritize linguistic fluency over structured clinical logic and result in a fundamental misalignment with professional diagnostic cognition. Here we introduce ClinMPO, a reinforcement learning framework designed to align the internal reasoning of LLMs with professional psychiatric practice. The framework employs a specialized reward model trained independently on a dataset derived from 4,474 psychiatry journal articles and structured according to evidence-based medicine principles. We evaluated ClinMPO on a unseen subset of the benchmark designed to isolate reasoning capabilities from rote memorization. This test set comprises items where leading large-parameter LLMs consistently fail. We compared the ClinMPO-aligned light LLM performance against a cohort of 300 medical students. The ClinMPO-tuned Qwen3-8B model achieved a diagnostic accuracy of 31.4% and surpassed the human benchmark of 30.8% on these complex cases. These results demonstrate that medical evidence-guided optimization enables light-parameter LLMs to master complex reasoning tasks. Our findings suggest that explicit cognitive alignment offers a scalable pathway to reliable and safe psychiatric decision support.
- Abstract(参考訳): 大規模言語モデル (LLM) は医学的意思決定支援の変革的可能性を持っているが、その精神医学への応用は幻覚や表面的推論によって制限されている。
この制限は特に、プライバシ保護と効率的な臨床展開に不可欠である光パラメータLSMにおいて急激である。
既存の訓練パラダイムは、構造化された臨床論理よりも言語流布を優先し、専門的な診断認知と根本的な相違をもたらす。
本稿では,LLMの内部推論と専門的な精神医学的実践の整合性を考慮した強化学習フレームワークであるClinMPOを紹介する。
このフレームワークは、4,474の精神医学論文から派生したデータセットに基づいて独立して訓練された特別な報酬モデルを採用し、エビデンスベースの医療原則に従って構造化されている。
我々はClinMPOを,ロート記憶から推論能力を分離するために設計されたベンチマークの未確認サブセットで評価した。
このテストセットは、大口径LSMが常に失敗するアイテムを含む。
我々は, ClinMPO 対応軽 LLM 性能を300人の医学生のコホートと比較した。
ClinMPOで調整されたQwen3-8Bモデルは診断精度31.4%に達し、これらの複雑なケースのヒトのベンチマークを30.8%上回った。
これらの結果は、医学的エビデンス誘導最適化により、光パラメータLSMが複雑な推論タスクをマスターできることを示している。
以上の結果から,認知的アライメントは,信頼性と安全な精神科的意思決定支援にスケーラブルな経路を提供する可能性が示唆された。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice [20.166682569070073]
LLM(Large Language Models)は、医療資源の不足や精神科臨床における診断整合性の低下といった問題に対処するための潜在的な解決策を提供する。
精神科臨床現場における LLM の実用性を評価するためのベンチマークシステム PsychBench を提案する。
既存のモデルは大きな可能性を秘めているが,精神科臨床における意思決定ツールとしてはまだ不十分である。
論文 参考訳(メタデータ) (2025-02-28T12:17:41Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。