論文の概要: Measuring Stability Beyond Accuracy in Small Open-Source Medical Large Language Models for Pediatric Endocrinology
- arxiv url: http://arxiv.org/abs/2601.11567v1
- Date: Fri, 26 Dec 2025 14:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.760716
- Title: Measuring Stability Beyond Accuracy in Small Open-Source Medical Large Language Models for Pediatric Endocrinology
- Title(参考訳): 小児内分泌学のための小型オープンソース医療用大言語モデルにおける精度を超える安定性の測定
- Authors: Vanessa D'Amario, Randy Daniel, Alessandro Zanetti, Dhruv Edamadaka, Nitya Alaparthy, Joshua Tarkoff,
- Abstract要約: 小さなオープンソース医療用大規模言語モデル(LLM)は、低リソースのデプロイメントとより広範なアクセシビリティのための有望な機会を提供する。
人体評価と臨床検査を併用して,6つの小さなオープンソース医療用LLMを評価した。
- 参考スコア(独自算出の注目度): 34.80893325510028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small open-source medical large language models (LLMs) offer promising opportunities for low-resource deployment and broader accessibility. However, their evaluation is often limited to accuracy on medical multiple choice question (MCQ) benchmarks, and lacks evaluation of consistency, robustness, or reasoning behavior. We use MCQ coupled to human evaluation and clinical review to assess six small open-source medical LLMs (HuatuoGPT-o1 (Chen 2024), Diabetica-7B, Diabetica-o1 (Wei 2024), Meditron3-8B (Sallinen2025), MedFound-7B (Liu 2025), and ClinicaGPT-base-zh (Wang 2023)) in pediatric endocrinology. In deterministic settings, we examine the effect of prompt variation on models' output and self-assessment bias. In stochastic settings, we evaluate output variability and investigate the relationship between consistency and correctness. HuatuoGPT-o1-8B achieved the highest performance. The results show that high consistency across the model response is not an indicator of correctness, although HuatuoGPT-o1-8B showed the highest consistency rate. When tasked with selecting correct reasoning, both HuatuoGPT-o1-8B and Diabetica-o1 exhibit self-assessment bias and dependency on the order of the candidate explanations. Expert review of incorrect reasoning rationales identified a mix of clinically acceptable responses and clinical oversight. We further show that system-level perturbations, such as differences in CUDA builds, can yield statistically significant shifts in model output despite stable accuracy. This work demonstrates that small, semantically negligible prompt perturbations lead to divergent outputs, raising concerns about reproducibility of LLM-based evaluations and highlights the output variability under different stochastic regimes, emphasizing the need of a broader diagnostic framework to understand potential pitfalls in real-world clinical decision support scenarios.
- Abstract(参考訳): 小さなオープンソース医療用大規模言語モデル(LLM)は、低リソースのデプロイメントとより広範なアクセシビリティのための有望な機会を提供する。
しかしながら、それらの評価は医療多重選択問題(MCQ)ベンチマークの精度に制限されることが多く、一貫性、堅牢性、推論行動の評価が欠如している。
我々は,ヒト評価と臨床検査を併用したMCQを用いて,小児内耳科領域における6つの小さなオープンソース医療用LDM(HuatuoGPT-o1 (Chen 2024), Diabetica-7B, Diabetica-o1 (Wei 2024), Meditron3-8B (Sallinen2025), MedFound-7B (Liu 2025), ClinicalaGPT-base-zh (Wang 2023) の評価を行った。
決定論的設定では,モデル出力と自己評価バイアスに対する即時変動の影響について検討する。
確率的設定では,出力の変動性を評価し,一貫性と正しさの関係について検討する。
HuatuoGPT-o1-8Bは最高性能を達成した。
その結果,HuatuoGPT-o1-8Bは高い整合率を示したが,モデル応答間での高整合性は正確性を示す指標ではないことがわかった。
HuatuoGPT-o1-8B と Diabetica-o1 は、正しい推論を行う際に、自己評価バイアスと候補説明の順序による依存性を示す。
誤った理性理論の専門家によるレビューでは、臨床的に許容できる応答と臨床的監視が混在していることが確認された。
さらに、CUDAビルドの違いなどのシステムレベルの摂動は、安定した精度にもかかわらず、統計的に有意なモデル出力の変化をもたらす可能性があることを示す。
この研究は、小規模で意味論的に無視可能な急激な摂動がアウトプットのばらつきを招き、LCMに基づく評価の再現性への懸念を提起し、様々な確率的体制下でのアウトプットの変動を強調し、現実の臨床的決定支援シナリオにおける潜在的な落とし穴を理解するためのより広範な診断枠組みの必要性を強調した。
関連論文リスト
- An Explainable and Fair AI Tool for PCOS Risk Assessment: Calibration, Subgroup Equity, and Interactive Clinical Deployment [0.10026496861838446]
本稿では,多嚢胞性卵巣症候群(PCOS)の予測のための,公平で解釈可能な機械学習フレームワークを提案する。
このフレームワークは、SHAPに基づく特徴属性と人口統計監査を統合し、予測的説明と観察的差異を関連付ける。
StreamlitベースのWebインターフェースは、リアルタイムPCOSリスク評価、ロッテルダム基準評価、インタラクティブな「What-if」分析を可能にする。
論文 参考訳(メタデータ) (2025-11-08T16:14:56Z) - A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文 参考訳(メタデータ) (2025-10-22T00:15:02Z) - MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning [7.167933033102407]
重篤な症状と症状を一定に保ちながら,患者代名詞のみを摂動する反ファクト・ベンチマークであるMEDEQUALQAを紹介する。
我々は、GPT-4.1モデルを評価し、代名詞の変種間の安定性を測定するために、推論トレース間のセマンティックテキスト類似性(STS)を計算する。
以上の結果から,総じて高い類似性(平均STS >0.80)を示した。
論文 参考訳(メタデータ) (2025-10-09T22:12:58Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。