論文の概要: Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment
- arxiv url: http://arxiv.org/abs/2603.00917v1
- Date: Sun, 01 Mar 2026 04:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.411478
- Title: Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment
- Title(参考訳): 小規模オープンソース大言語モデルのプロンプト感度と回答整合性 : 低リソース医療展開への示唆
- Authors: Shravani Hariprasad,
- Abstract要約: 小規模のオープンソース言語モデルは、低リソースのヘルスケア設定に注目されているが、異なるプロンプトのフレーズの下での信頼性はいまだによく分かっていない。
我々は,3つの臨床QAデータセットを対象とした5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small open-source language models are gaining attention for low-resource healthcare settings, but their reliability under different prompt phrasings remains poorly understood. We evaluated five open-source models (Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, and Meditron-7B domain-pretrained without instruction tuning) across three clinical QA datasets (MedQA, MedMCQA, PubMedQA) using five prompt styles (original, formal, simplified, roleplay, direct). We measured consistency scores, accuracy, and instruction-following failure rates. All inference ran locally on consumer CPU hardware without fine-tuning. Consistency and accuracy were largely independent. Gemma 2 achieved the highest consistency (0.845-0.888) but lowest accuracy (33.0-43.5%), while Llama 3.2 showed moderate consistency (0.774-0.807) with the highest accuracy (49.0-65.0%). Roleplay prompts consistently reduced accuracy across all models, with Phi-3 Mini dropping 21.5 percentage points on MedQA. Meditron-7B exhibited near-complete instruction-following failure on PubMedQA (99.0% UNKNOWN rate), showing domain pretraining alone is insufficient for structured clinical QA. High consistency does not imply correctness. Models can be reliably wrong, a dangerous failure mode in clinical AI. Roleplay prompts should be avoided in healthcare applications. Llama 3.2 showed the strongest balance of accuracy and reliability for low-resource deployment. Safe clinical AI requires joint evaluation of consistency, accuracy, and instruction adherence.
- Abstract(参考訳): 小規模のオープンソース言語モデルは、低リソースのヘルスケア設定に注目されているが、異なるプロンプトのフレーズの下での信頼性はいまだによく分かっていない。
我々は,3つのQAデータセット (MedQA, MedMCQA, PubMedQA) を用いて, 5つのオープンソースモデル (Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B) を評価した。
整合性スコア,精度,命令追従失敗率を測定した。
推論はすべて、微調整なしで消費者向けCPUハードウェア上でローカルに実行された。
一貫性と正確性はほとんど独立していた。
Gemma 2は最高一貫性(0.845-0.888)、最低精度(3.0-43.5%)、Llama 3.2は中等一貫性(0.774-0.807)、最高精度(49.0-65.0%)を達成した。
ロールプレイは全てのモデルで一貫して精度を低下させ、Phi-3 MiniはMedQAで21.5ポイント低下した。
メドトロン7BはPubMedQA (99.0% UNKNOWN) にほぼ完全な命令追従障害を示し, ドメイン前訓練だけでは構造的臨床QAには不十分であった。
高い一貫性は正確さを暗示しない。
モデルは確実に間違っていて、臨床AIの危険な障害モードです。
ロールプレイプロンプトは医療アプリケーションでは避けるべきである。
Llama 3.2は、低リソース展開の精度と信頼性の最も高いバランスを示した。
安全な臨床AIには、一貫性、正確性、命令の順守を共同で評価する必要がある。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages [0.0]
本研究では,Aya-expanse-8Bをペルシャ語から英語への翻訳モデルと5つのオープンソース小言語モデル(SLM)を組み合わせた2段階パイプラインの評価を行った。
マクロ平均F1スコア, マシューズ相関係数(MCC), 感度, クラス不均衡を考慮した特異性について検討した。
Aya-expanse-8Bのバイリンガル分析により、ペルシア文字を英語に翻訳することで感度が向上し、出力が低下し、クラス不均衡に頑健な指標が増加した。
論文 参考訳(メタデータ) (2026-02-24T21:10:29Z) - Measuring Stability Beyond Accuracy in Small Open-Source Medical Large Language Models for Pediatric Endocrinology [34.80893325510028]
小さなオープンソース医療用大規模言語モデル(LLM)は、低リソースのデプロイメントとより広範なアクセシビリティのための有望な機会を提供する。
人体評価と臨床検査を併用して,6つの小さなオープンソース医療用LLMを評価した。
論文 参考訳(メタデータ) (2025-12-26T14:30:53Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization [0.06554326244334867]
本稿では,日本の医療領域に最適化された72BパラメータモデルであるPreferred-MedLLM-Qwen-72Bを紹介する。
我々は、Qwen2.5-72Bベースモデルに2段階の微調整プロセスを適用し、高い精度と安定した推論を実現する。
論文 参考訳(メタデータ) (2025-04-25T05:15:31Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文 参考訳(メタデータ) (2025-02-02T16:57:03Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。