論文の概要: Mind the Gap: Benchmarking LLM Uncertainty, Discrimination, and Calibration in Specialty-Aware Clinical QA
- arxiv url: http://arxiv.org/abs/2506.10769v2
- Date: Tue, 12 Aug 2025 15:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 18:56:18.605053
- Title: Mind the Gap: Benchmarking LLM Uncertainty, Discrimination, and Calibration in Specialty-Aware Clinical QA
- Title(参考訳): 臨床QAにおけるLDMの不確かさ, 識別, 校正のベンチマーク
- Authors: Alberto Testoni, Iacer Calixto,
- Abstract要約: 臨床質問応答(QA)に焦点を当てた不確実性評価手法の評価を行った。
本稿では,推論指向モデルに基づく行動特徴に基づく,新しい軽量な手法を提案する。
以上の結果から,不確実性はモノリシックな性質ではなく,臨床専門性や質問タイプに依存していることが明らかとなった。
- 参考スコア(独自算出の注目度): 4.501692468580528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable uncertainty quantification (UQ) is essential when employing large language models (LLMs) in high-risk domains such as clinical question answering (QA). In this work, we evaluate uncertainty estimation methods for clinical QA focusing, for the first time, on eleven clinical specialties and six question types, and across ten open-source LLMs (general-purpose, biomedical, and reasoning models). We analyze score-based UQ methods, present a case study introducing a novel lightweight method based on behavioral features derived from reasoning-oriented models, and examine conformal prediction as a complementary set-based approach. Our findings reveal that uncertainty reliability is not a monolithic property, but one that depends on clinical specialty and question type due to shifts in calibration and discrimination. Our results highlight the need to select or ensemble models based on their distinct, complementary strengths and clinical use.
- Abstract(参考訳): 臨床質問応答 (QA) などの高リスク領域において, 大規模言語モデル (LLM) を用いる場合, 信頼性の不確実性定量化 (UQ) が不可欠である。
本研究は,11の臨床専門知識と6つの質問タイプ,および10のオープンソースLCM(汎用的,バイオメディカル,推論モデル)を対象に,臨床QAに焦点を当てた不確実性評価手法を初めて評価した。
本稿では,楽譜に基づくUQ手法を解析し,推論指向モデルに基づく行動特徴に基づく新しい軽量手法を導入し,補完的なセットベースアプローチとしてコンフォメーション予測を検討する。
以上の結果から,不確実性はモノリシックな性質ではなく,校正や差別の変化による臨床専門性や質問タイプに依存していることが明らかとなった。
以上の結果から, モデルの選択・アンサンブルの必要性が示唆された。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - An Empirical Analysis of Calibration and Selective Prediction in Multimodal Clinical Condition Classification [11.640422721732756]
マルチラベル臨床条件分類における不確実性に基づく選択予測の信頼性を実証的に評価した。
高い標準評価基準にもかかわらず、選択的予測は性能を著しく低下させる可能性がある。
この失敗は、厳密なクラス依存の誤校正によって引き起こされ、モデルが正しい予測に高い不確実性を割り当て、誤った予測に低い不確実性を割り当てる。
論文 参考訳(メタデータ) (2026-03-03T08:16:44Z) - A systematic evaluation of uncertainty quantification techniques in deep learning: a case study in photoplethysmography signal analysis [1.6690512882610855]
ディープラーニングモデルは、臨床外の生理的パラメータを継続的に監視するために使用することができる。
実践的な測定シナリオに配備された場合、パフォーマンスが悪くなるリスクがあり、負の患者結果につながる。
ここでは、2つの臨床関連予測タスクで訓練されたモデルに対して、8つの不確実性(UQ)技術を実装する。
論文 参考訳(メタデータ) (2025-10-31T22:54:13Z) - A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文 参考訳(メタデータ) (2025-10-22T00:15:02Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Consistency of Feature Attribution in Deep Learning Architectures for Multi-Omics [0.36646002427839136]
マルチオミクスデータに適用した多視点深層学習モデルにおけるShapley Additive Explanations (SHAP)の使用について検討する。
SHAPによる機能ランキングは、メソッドの一貫性を評価するために様々なアーキテクチャで比較される。
本稿では,重要な生体分子の同定の堅牢性を評価する方法を提案する。
論文 参考訳(メタデータ) (2025-07-30T17:53:42Z) - Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs [3.299877799532224]
校正しきい値分類器を選択するための基本的かつ実用的な評価フレームワークを提案する。
臨床的に関連のあるクラスバランスの範囲でコスト重み付け性能を平均化するクロスエントロピー(log score)の調整版を導出する。
その結果得られた評価は、簡単に適用でき、臨床展開条件に敏感であり、キャリブレーションされたモデルと実世界の変動に頑健なモデルの両方を優先順位付けするよう設計されている。
論文 参考訳(メタデータ) (2025-06-17T14:01:39Z) - Conformal uncertainty quantification to evaluate predictive fairness of foundation AI model for skin lesion classes across patient demographics [8.692647930497936]
我々は、コンフォメーション解析を用いて、視覚変換器に基づく基礎モデルの予測不確かさを定量化する。
基礎モデルの特徴埋め込みの堅牢性を評価するために、公正度測定としてどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-03-31T08:06:00Z) - Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - Stabilizing Machine Learning for Reproducible and Explainable Results: A Novel Validation Approach to Subject-Specific Insights [2.7516838144367735]
本稿では,一般的なMLモデルを用いて再現可能な性能とロバストな特徴重要度分析を保証する新しい検証手法を提案する。
ドメイン、サンプルサイズ、人口統計の異なる9つのデータセットに対して、1つのランダムフォレスト(RF)モデルをテストしました。
被験者レベルでの重要な特徴を一貫して同定し,グループレベルの特徴重要度分析を改善した。
論文 参考訳(メタデータ) (2024-12-16T23:14:26Z) - Predictive uncertainty estimation in deep learning for lung carcinoma classification in digital pathology under real dataset shifts [2.309018557701645]
本稿では,予測不確実性推定が深層学習に基づく診断意思決定システムに堅牢性をもたらすか否かを評価する。
まず, モンテカルロの脱落, 深層アンサンブル, 肺腺癌分類の軽微な学習をスライド画像全体の一次疾患として, 予測不確実性を改善するための一般的な3つの方法について検討した。
論文 参考訳(メタデータ) (2024-08-15T21:49:43Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - The Relevance Feature and Vector Machine for health applications [0.11538034264098687]
本稿では,臨床研究における脂肪データ問題に対処する新しいモデルを提案する。
モデル機能は、太いデータ問題のあるいくつかの医療データセットの最先端モデルに対してテストされる。
論文 参考訳(メタデータ) (2024-02-11T01:21:56Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。