論文の概要: Evaluating Prompt Engineering Techniques for Accuracy and Confidence Elicitation in Medical LLMs
- arxiv url: http://arxiv.org/abs/2506.00072v1
- Date: Thu, 29 May 2025 17:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.188434
- Title: Evaluating Prompt Engineering Techniques for Accuracy and Confidence Elicitation in Medical LLMs
- Title(参考訳): 医療用LLMの精度・信頼性評価技術
- Authors: Nariman Naderi, Zahra Atf, Peter R Lewis, Aref Mahjoub far, Seyed Amir Ahmad Safavi-Naini, Ali Soroush,
- Abstract要約: Chain-of-Thoughtは精度を向上させるが、自信過剰につながった。
感情は更に自信を増し、決定を下す危険を冒した。
これらの結果は, 高精度な医療業務に有効であるためには, 正確性と不確実性の両方に対処する必要があることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates how prompt engineering techniques impact both accuracy and confidence elicitation in Large Language Models (LLMs) applied to medical contexts. Using a stratified dataset of Persian board exam questions across multiple specialties, we evaluated five LLMs - GPT-4o, o3-mini, Llama-3.3-70b, Llama-3.1-8b, and DeepSeek-v3 - across 156 configurations. These configurations varied in temperature settings (0.3, 0.7, 1.0), prompt styles (Chain-of-Thought, Few-Shot, Emotional, Expert Mimicry), and confidence scales (1-10, 1-100). We used AUC-ROC, Brier Score, and Expected Calibration Error (ECE) to evaluate alignment between confidence and actual performance. Chain-of-Thought prompts improved accuracy but also led to overconfidence, highlighting the need for calibration. Emotional prompting further inflated confidence, risking poor decisions. Smaller models like Llama-3.1-8b underperformed across all metrics, while proprietary models showed higher accuracy but still lacked calibrated confidence. These results suggest prompt engineering must address both accuracy and uncertainty to be effective in high-stakes medical tasks.
- Abstract(参考訳): 本稿では,医学的文脈に適用した大規模言語モデル(LLM)の精度と信頼性の両面において,迅速な工学的手法がいかに影響するかを検討する。
複数の専門分野にわたるペルシャ委員会試験の階層化データセットを用いて,5つのLCM(GPT-4o, o3-mini, Llama-3.3-70b, Llama-3.1-8b, DeepSeek-v3)を156の構成で評価した。
これらの構成は温度設定 (0.3, 0.7, 1.0) 、プロンプトスタイル (Chain-of-Thought, Few-Shot, Emotional, Expert Mimicry) 、信頼性尺度 (1-10, 1-100) に変化した。
AUC-ROC, Brier Score, および期待校正誤差(ECE)を用いて, 信頼性と実際の性能の整合性を評価する。
チェーン・オブ・ソート(Chain-of-Thought)は精度を向上させるが、自信過剰を招き、校正の必要性を強調した。
感情は更に自信を増し、決定を下す危険を冒した。
Llama-3.1-8bのようなより小型のモデルは全ての指標で性能が劣り、プロプライエタリなモデルは高い精度を示したが、信頼性には欠けていた。
これらの結果は, 高精度な医療業務に有効であるためには, 正確性と不確実性の両方に対処しなくてはならないことを示唆している。
関連論文リスト
- Grade Guard: A Smart System for Short Answer Automated Grading [0.9558392439655016]
グレードガードは、ニュアンスまたは部分的に正しい回答を評価するためのフレームワークである。
Indecisiveness Score (IS) を計算し、予測されたグレードの不確かさを反映する。
また、最適化されたIndecisiveness Score(IS)を生成し、精度を高めるためにグレードの合理性を生成する。
論文 参考訳(メタデータ) (2025-04-01T23:45:44Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。
LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。
本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:45:35Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。