Fugu-MT 論文翻訳(概要): Mind the Gap: Benchmarking LLM Uncertainty, Discrimination, and Calibration in Specialty-Aware Clinical QA

論文の概要: Mind the Gap: Benchmarking LLM Uncertainty, Discrimination, and Calibration in Specialty-Aware Clinical QA

arxiv url: http://arxiv.org/abs/2506.10769v2
Date: Tue, 12 Aug 2025 15:15:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-13 18:56:18.605053
Title: Mind the Gap: Benchmarking LLM Uncertainty, Discrimination, and Calibration in Specialty-Aware Clinical QA
Title（参考訳）: 臨床QAにおけるLDMの不確かさ, 識別, 校正のベンチマーク
Authors: Alberto Testoni, Iacer Calixto,
Abstract要約: 臨床質問応答(QA)に焦点を当てた不確実性評価手法の評価を行った。本稿では,推論指向モデルに基づく行動特徴に基づく,新しい軽量な手法を提案する。以上の結果から,不確実性はモノリシックな性質ではなく,臨床専門性や質問タイプに依存していることが明らかとなった。
参考スコア（独自算出の注目度）: 4.501692468580528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reliable uncertainty quantification (UQ) is essential when employing large language models (LLMs) in high-risk domains such as clinical question answering (QA). In this work, we evaluate uncertainty estimation methods for clinical QA focusing, for the first time, on eleven clinical specialties and six question types, and across ten open-source LLMs (general-purpose, biomedical, and reasoning models). We analyze score-based UQ methods, present a case study introducing a novel lightweight method based on behavioral features derived from reasoning-oriented models, and examine conformal prediction as a complementary set-based approach. Our findings reveal that uncertainty reliability is not a monolithic property, but one that depends on clinical specialty and question type due to shifts in calibration and discrimination. Our results highlight the need to select or ensemble models based on their distinct, complementary strengths and clinical use.
Abstract（参考訳）: 臨床質問応答 (QA) などの高リスク領域において, 大規模言語モデル (LLM) を用いる場合, 信頼性の不確実性定量化 (UQ) が不可欠である。本研究は,11の臨床専門知識と6つの質問タイプ,および10のオープンソースLCM(汎用的,バイオメディカル,推論モデル)を対象に,臨床QAに焦点を当てた不確実性評価手法を初めて評価した。本稿では,楽譜に基づくUQ手法を解析し,推論指向モデルに基づく行動特徴に基づく新しい軽量手法を導入し,補完的なセットベースアプローチとしてコンフォメーション予測を検討する。以上の結果から,不確実性はモノリシックな性質ではなく,校正や差別の変化による臨床専門性や質問タイプに依存していることが明らかとなった。以上の結果から, モデルの選択・アンサンブルの必要性が示唆された。

関連論文リスト

Consistency of Feature Attribution in Deep Learning Architectures for Multi-Omics [0.36646002427839136]
マルチオミクスデータに適用した多視点深層学習モデルにおけるShapley Additive Explanations (SHAP)の使用について検討する。 SHAPによる機能ランキングは、メソッドの一貫性を評価するために様々なアーキテクチャで比較される。本稿では,重要な生体分子の同定の堅牢性を評価する方法を提案する。
論文参考訳（メタデータ） (2025-07-30T17:53:42Z)
Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文参考訳（メタデータ） (2025-02-25T10:15:21Z)
Stabilizing Machine Learning for Reproducible and Explainable Results: A Novel Validation Approach to Subject-Specific Insights [2.7516838144367735]
本稿では,一般的なMLモデルを用いて再現可能な性能とロバストな特徴重要度分析を保証する新しい検証手法を提案する。ドメイン、サンプルサイズ、人口統計の異なる9つのデータセットに対して、1つのランダムフォレスト(RF)モデルをテストしました。被験者レベルでの重要な特徴を一貫して同定し,グループレベルの特徴重要度分析を改善した。
論文参考訳（メタデータ） (2024-12-16T23:14:26Z)
Predictive uncertainty estimation in deep learning for lung carcinoma classification in digital pathology under real dataset shifts [2.309018557701645]
本稿では,予測不確実性推定が深層学習に基づく診断意思決定システムに堅牢性をもたらすか否かを評価する。まず, モンテカルロの脱落, 深層アンサンブル, 肺腺癌分類の軽微な学習をスライド画像全体の一次疾患として, 予測不確実性を改善するための一般的な3つの方法について検討した。
論文参考訳（メタデータ） (2024-08-15T21:49:43Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文参考訳（メタデータ） (2024-03-09T13:48:20Z)
The Relevance Feature and Vector Machine for health applications [0.11538034264098687]
本稿では,臨床研究における脂肪データ問題に対処する新しいモデルを提案する。モデル機能は、太いデータ問題のあるいくつかの医療データセットの最先端モデルに対してテストされる。
論文参考訳（メタデータ） (2024-02-11T01:21:56Z)
Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文参考訳（メタデータ） (2023-11-26T22:47:54Z)
In Search of Insights, Not Magic Bullets: Towards Demystification of the Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文参考訳（メタデータ） (2023-02-06T16:55:37Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)
Adversarial Sample Enhanced Domain Adaptation: A Case Study on Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。逆生成したサンプルはドメイン適応時に使用される。その結果,本手法の有効性とタスクの一般性が確認された。
論文参考訳（メタデータ） (2021-01-13T03:20:20Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。