論文の概要: Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment
- arxiv url: http://arxiv.org/abs/2603.00917v2
- Date: Wed, 04 Mar 2026 06:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 14:47:28.779588
- Title: Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment
- Title(参考訳): 小規模オープンソース大言語モデルのプロンプト感度と回答整合性 : 低リソース医療展開への示唆
- Authors: Shravani Hariprasad,
- Abstract要約: 小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。
臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small open-source language models are gaining attention for healthcare applications in low-resource settings where cloud infrastructure and GPU hardware may be unavailable. However, their reliability under different prompt phrasings remains poorly understood. We evaluate five open-source models (Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, and Meditron-7B, a domain-pretrained model without instruction tuning) across three clinical question answering datasets (MedQA, MedMCQA, and PubMedQA) using five prompt styles: original, formal, simplified, roleplay, and direct. Model behavior is evaluated using consistency scores, accuracy, and instruction-following failure rates. All experiments were conducted locally on consumer CPU hardware without fine-tuning. Consistency and accuracy were largely independent across models. Gemma 2 achieved the highest consistency (0.845-0.888) but the lowest accuracy (33.0-43.5%), while Llama 3.2 showed moderate consistency (0.774-0.807) alongside the highest accuracy (49.0-65.0%). Roleplay prompts consistently reduced accuracy across all models, with Phi-3 Mini dropping 21.5 percentage points on MedQA. Meditron-7B exhibited near-complete instruction-following failure on PubMedQA (99.0% UNKNOWN rate), indicating that domain pretraining alone is insufficient for structured clinical QA. These findings show that high consistency does not imply correctness: models can be reliably wrong, a dangerous failure mode in clinical AI. Llama 3.2 demonstrated the strongest balance of accuracy and reliability for low-resource deployment. Safe clinical AI requires joint evaluation of consistency, accuracy, and instruction adherence.
- Abstract(参考訳): 小さなオープンソース言語モデルは、クラウドインフラストラクチャとGPUハードウェアが利用できない低リソース環境でのヘルスケアアプリケーションに注目を集めている。
しかし、異なるプロンプト・フレーズの下での信頼性はいまだによく理解されていない。
MedQA, MedMCQA, PubMedQA) を用いて, 5種類のオープンソースモデル (Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B) を, オリジナル, フォーマル, シンプル, ロールプレイ, ダイレクトの5種類を用いて評価した。
モデルの振舞いは、一貫性スコア、精度、命令追従失敗率を用いて評価される。
全ての実験は、微調整なしで消費者向けCPUハードウェア上でローカルに行われた。
一貫性と精度はモデル間で大きく独立していた。
Gemma 2 は最高一貫性 (0.845-0.888) を達成したが、最も低い精度 (33.0-43.5%) を示したのに対し、Llama 3.2 は最高一貫性 (49.0-65.0%) とともに中等一貫性 (0.774-0.807) を示した。
ロールプレイは全てのモデルで一貫して精度を低下させ、Phi-3 MiniはMedQAで21.5ポイント低下した。
メディトロン7BはPubMedQA (99.0% UNKNOWN) にほぼ完全な命令追従障害を示し, ドメインプレトレーニング単独では臨床QAの構造に不十分であることが示唆された。
これらの結果は、高い一貫性が正確さを示唆するものではないことを示している。
Llama 3.2は、低リソース展開のための信頼性と信頼性のバランスが最強であることを実証した。
安全な臨床AIには、一貫性、正確性、命令の順守を共同で評価する必要がある。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages [0.0]
本研究では,Aya-expanse-8Bをペルシャ語から英語への翻訳モデルと5つのオープンソース小言語モデル(SLM)を組み合わせた2段階パイプラインの評価を行った。
マクロ平均F1スコア, マシューズ相関係数(MCC), 感度, クラス不均衡を考慮した特異性について検討した。
Aya-expanse-8Bのバイリンガル分析により、ペルシア文字を英語に翻訳することで感度が向上し、出力が低下し、クラス不均衡に頑健な指標が増加した。
論文 参考訳(メタデータ) (2026-02-24T21:10:29Z) - Measuring Stability Beyond Accuracy in Small Open-Source Medical Large Language Models for Pediatric Endocrinology [34.80893325510028]
小さなオープンソース医療用大規模言語モデル(LLM)は、低リソースのデプロイメントとより広範なアクセシビリティのための有望な機会を提供する。
人体評価と臨床検査を併用して,6つの小さなオープンソース医療用LLMを評価した。
論文 参考訳(メタデータ) (2025-12-26T14:30:53Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization [0.06554326244334867]
本稿では,日本の医療領域に最適化された72BパラメータモデルであるPreferred-MedLLM-Qwen-72Bを紹介する。
我々は、Qwen2.5-72Bベースモデルに2段階の微調整プロセスを適用し、高い精度と安定した推論を実現する。
論文 参考訳(メタデータ) (2025-04-25T05:15:31Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文 参考訳(メタデータ) (2025-02-02T16:57:03Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。