論文の概要: Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs
- arxiv url: http://arxiv.org/abs/2506.10769v1
- Date: Thu, 12 Jun 2025 14:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.78929
- Title: Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs
- Title(参考訳): 異なる質問と異なるモデル:LLMを用いた臨床QAにおける不確かさと校正の微粒化評価
- Authors: Alberto Testoni, Iacer Calixto,
- Abstract要約: 臨床多点質問応答における不確実性評価法について詳細に検討した。
本稿では,標準の単一世代法とサンプリング法を比較し,単純な単一パス推定法について考察する。
本結果は,質問の性質とモデル固有の強みの両方に基づいて,モデルを選択することの重要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 4.501692468580528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and well-calibrated uncertainty estimates are essential for deploying large language models (LLMs) in high-stakes domains such as clinical decision support. We present a fine-grained evaluation of uncertainty estimation methods for clinical multiple-choice question answering, covering ten open-source LLMs (general-purpose, biomedical, and reasoning models) across two datasets, eleven medical specialties, and six question types. We compare standard single-generation and sampling-based methods, and present a case study exploring simple, single-pass estimators based on behavioral signals in reasoning traces. These lightweight methods approach the performance of Semantic Entropy while requiring only one generation. Our results reveal substantial variation across specialties and question types, underscoring the importance of selecting models based on both the nature of the question and model-specific strengths.
- Abstract(参考訳): 臨床診断支援などの高用量領域に大規模言語モデル(LLM)を配置するには,正確な不確実性推定が不可欠である。
本研究は,2つのデータセット,11の専門知識,6つの質問タイプにまたがる10個のオープンソースLCM(汎用的,バイオメディカル,推論モデル)を対象とした,臨床多票質問応答の不確実性評価手法を詳細に評価する。
本稿では,標準の単一世代法とサンプリング法を比較し,単純な単一パス推定法について考察する。
これらの軽量な手法は1世代しか必要とせず、セマンティックエントロピーの性能にアプローチする。
本結果は,質問の性質とモデル固有の強みの両方に基づいて,モデルを選択することの重要性を浮き彫りにしている。
関連論文リスト
- Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - Stabilizing Machine Learning for Reproducible and Explainable Results: A Novel Validation Approach to Subject-Specific Insights [2.7516838144367735]
本稿では,一般的なMLモデルを用いて再現可能な性能とロバストな特徴重要度分析を保証する新しい検証手法を提案する。
ドメイン、サンプルサイズ、人口統計の異なる9つのデータセットに対して、1つのランダムフォレスト(RF)モデルをテストしました。
被験者レベルでの重要な特徴を一貫して同定し,グループレベルの特徴重要度分析を改善した。
論文 参考訳(メタデータ) (2024-12-16T23:14:26Z) - Predictive uncertainty estimation in deep learning for lung carcinoma classification in digital pathology under real dataset shifts [2.309018557701645]
本稿では,予測不確実性推定が深層学習に基づく診断意思決定システムに堅牢性をもたらすか否かを評価する。
まず, モンテカルロの脱落, 深層アンサンブル, 肺腺癌分類の軽微な学習をスライド画像全体の一次疾患として, 予測不確実性を改善するための一般的な3つの方法について検討した。
論文 参考訳(メタデータ) (2024-08-15T21:49:43Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - The Relevance Feature and Vector Machine for health applications [0.11538034264098687]
本稿では,臨床研究における脂肪データ問題に対処する新しいモデルを提案する。
モデル機能は、太いデータ問題のあるいくつかの医療データセットの最先端モデルに対してテストされる。
論文 参考訳(メタデータ) (2024-02-11T01:21:56Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。