論文の概要: Can Large Language Models Function as Qualified Pediatricians? A Systematic Evaluation in Real-World Clinical Contexts
- arxiv url: http://arxiv.org/abs/2511.13381v1
- Date: Mon, 17 Nov 2025 13:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.280491
- Title: Can Large Language Models Function as Qualified Pediatricians? A Systematic Evaluation in Real-World Clinical Contexts
- Title(参考訳): 小児科医としての大規模言語モデルの役割 : 実世界臨床における体系的評価
- Authors: Siyu Zhu, Mouxiao Bian, Yue Xie, Yongyu Tang, Zhikang Yu, Tianbin Li, Pengcheng Chen, Bing Han, Jie Xu, Xiaoyan Dong,
- Abstract要約: 医学における大規模言語モデル(LLM)の急激な普及に伴い、実際の臨床現場で有能な小児科医として機能するかどうかが重要な疑問である。
PEDIASBenchは,知識システムフレームワークを中心とした,現実的な臨床環境に適したシステム評価フレームワークである。
GPT-4o, Qwen3-235B-A22B, DeepSeek-V3を含む過去2年間にリリースされた12種類の代表モデルについて検討した。
- 参考スコア(独自算出の注目度): 9.274932109971358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid rise of large language models (LLMs) in medicine, a key question is whether they can function as competent pediatricians in real-world clinical settings. We developed PEDIASBench, a systematic evaluation framework centered on a knowledge-system framework and tailored to realistic clinical environments. PEDIASBench assesses LLMs across three dimensions: application of basic knowledge, dynamic diagnosis and treatment capability, and pediatric medical safety and medical ethics. We evaluated 12 representative models released over the past two years, including GPT-4o, Qwen3-235B-A22B, and DeepSeek-V3, covering 19 pediatric subspecialties and 211 prototypical diseases. State-of-the-art models performed well on foundational knowledge, with Qwen3-235B-A22B achieving over 90% accuracy on licensing-level questions, but performance declined ~15% as task complexity increased, revealing limitations in complex reasoning. Multiple-choice assessments highlighted weaknesses in integrative reasoning and knowledge recall. In dynamic diagnosis and treatment scenarios, DeepSeek-R1 scored highest in case reasoning (mean 0.58), yet most models struggled to adapt to real-time patient changes. On pediatric medical ethics and safety tasks, Qwen2.5-72B performed best (accuracy 92.05%), though humanistic sensitivity remained limited. These findings indicate that pediatric LLMs are constrained by limited dynamic decision-making and underdeveloped humanistic care. Future development should focus on multimodal integration and a clinical feedback-model iteration loop to enhance safety, interpretability, and human-AI collaboration. While current LLMs cannot independently perform pediatric care, they hold promise for decision support, medical education, and patient communication, laying the groundwork for a safe, trustworthy, and collaborative intelligent pediatric healthcare system.
- Abstract(参考訳): 医学における大規模言語モデル(LLM)の急激な普及に伴い、実際の臨床環境では有能な小児科医として機能するかどうかが重要な疑問である。
PEDIASBenchは,知識システムフレームワークを中心とした,現実的な臨床環境に適したシステム評価フレームワークである。
PEDIASBenchは、基本的な知識の応用、動的診断と治療能力、小児医療の安全と医療倫理の3つの側面にわたるLCMを評価する。
GPT-4o, Qwen3-235B-A22B, DeepSeek-V3を含む過去2年間にリリースされた12種類の代表モデルについて検討した。
Qwen3-235B-A22Bはライセンスレベルの問題に対して90%以上の精度を達成したが、タスクの複雑さが増大し、複雑な推論の制限が明らかになったため、性能は15%低下した。
複数選択評価は、統合的推論と知識リコールの弱点を強調した。
動的診断と治療のシナリオでは、DeepSeek-R1はケース推論において最高値(平均0.58)を記録したが、ほとんどのモデルはリアルタイムの患者の変化に適応するのに苦労した。
Qwen2.5-72Bは、小児の医療倫理と安全に関するタスクにおいて、高い精度(92.05%)を達成したが、人道的感受性は限られていた。
これらの結果から,小児 LLM は動的意思決定の制限と人道的ケアの不足によって制約されていることが示唆された。
今後の開発は、安全性、解釈可能性、人間とAIのコラボレーションを高めるために、マルチモーダル統合と臨床フィードバックモデル反復ループに焦点を当てるべきである。
現在のLSMは独立して小児医療を行うことはできないが、決定支援、医療教育、患者とのコミュニケーションを約束し、安全で信頼性があり、協調的なインテリジェントな小児医療システムの基礎を築き上げている。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Baichuan-M2: Scaling Medical Capability with Large Verifier System [40.86227022086866]
静的解答検証を超越した,新しい動的検証フレームワークを提案する。
多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。
HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-09-02T11:23:35Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - HIVMedQA: Benchmarking large language models for HIV medical decision support [0.0]
HIV管理は、その複雑さのために魅力的なユースケースである。
大規模言語モデル(LLM)を臨床実践に統合すると、正確性、潜在的な害、臨床受理に関する懸念が高まる。
本研究は、HIV治療におけるLSMの現在の能力を評価し、その強度と限界を強調した。
論文 参考訳(メタデータ) (2025-07-24T07:06:30Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Simulated patient systems are intelligent when powered by large language model-based AI agents [32.73072809937573]
我々は,大規模言語モデルに基づくAIエージェントを用いた,インテリジェントシミュレートされた患者システムAIatientを開発した。
このシステムにはRetrieval Augmented Generationフレームワークが組み込まれており、複雑な推論のために6つのタスク固有のLLMベースのAIエージェントが使用されている。
シミュレーションの現実のために、このシステムはAIPatient KG (Knowledge Graph) も利用している。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。