論文の概要: The Evaluation Gap in Medicine, AI and LLMs: Navigating Elusive Ground Truth & Uncertainty via a Probabilistic Paradigm
- arxiv url: http://arxiv.org/abs/2601.05500v1
- Date: Fri, 09 Jan 2026 03:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.825324
- Title: The Evaluation Gap in Medicine, AI and LLMs: Navigating Elusive Ground Truth & Uncertainty via a Probabilistic Paradigm
- Title(参考訳): 医学・AI・LLMにおける評価ギャップ : 確率論的パラダイムによる永遠の地底真理と不確かさの探索
- Authors: Aparna Elangovan, Lei Xu, Mahsa Elyasi, Ismail Akdulum, Mehmet Aksakal, Enes Gurun, Brian Hur, Saab Mansour, Ravid Shwartz Ziv, Karin Verspoor, Dan Roth,
- Abstract要約: 基礎的真理解における高い確実性は、専門家でさえ高いスコアを得るのに、ほぼ常に必要であるということを理論的に説明するために確率論的パラダイムを導入する。
そこで我々は,有能な人間やシステムが与えられた真理応答の変動を推定するために,期待精度と期待F1の概念を導出する。
- 参考スコア(独自算出の注目度): 49.287792149338976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking the relative capabilities of AI systems, including Large Language Models (LLMs) and Vision Models, typically ignores the impact of uncertainty in the underlying ground truth answers from experts. This ambiguity is particularly consequential in medicine where uncertainty is pervasive. In this paper, we introduce a probabilistic paradigm to theoretically explain how high certainty in ground truth answers is almost always necessary for even an expert to achieve high scores, whereas in datasets with high variation in ground truth answers there may be little difference between a random labeller and an expert. Therefore, ignoring uncertainty in ground truth evaluation data can result in the misleading conclusion that a non-expert has similar performance to that of an expert. Using the probabilistic paradigm, we thus bring forth the concepts of expected accuracy and expected F1 to estimate the score an expert human or system can achieve given ground truth answer variability. Our work leads to the recommendation that when establishing the capability of a system, results should be stratified by probability of the ground truth answer, typically measured by the agreement rate of ground truth experts. Stratification becomes critical when the overall performance drops below a threshold of 80%. Under stratified evaluation, performance comparison becomes more reliable in high certainty bins, mitigating the effect of the key confounding factor -- uncertainty.
- Abstract(参考訳): 大規模言語モデル(LLMs)やビジョンモデル(Vision Models)を含むAIシステムの相対的な能力のベンチマークは、専門家による基礎となる真実回答における不確実性の影響を無視するのが一般的である。
この曖昧さは、不確実性が広まる医学において特に適切である。
本稿では, 基礎的真理解法において, 基礎的真理解法において, 高い真理解法が常に必要であるかどうかを理論的に説明するための確率論的パラダイムを導入する。
したがって、根拠的真理評価データの不確実性を無視すると、非専門家が専門家と同等の性能を持つという誤解を招く可能性がある。
確率論的パラダイムを用いて、予測精度と期待F1の概念を導出し、専門家の人間やシステムが与えられた真理応答の変動を推定する。
我々の研究は、システムの能力を確立する際には、結果が基礎真実の答えの確率によって階層化されるべきであり、通常は基礎真実の専門家の合意率によって測定される。
全体的なパフォーマンスが80%未満になると、階層化が重要になります。
階層化評価の下では、性能比較は高い確実性のあるビンでより信頼性が高くなり、キーのコンバウンディング要因(不確実性)の影響を緩和する。
関連論文リスト
- Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Improving Counterfactual Truthfulness for Molecular Property Prediction through Uncertainty Quantification [0.6144680854063939]
XAIの介入は、複雑なブラックボックスモデルの解釈可能性を改善することを目的としている。
分子特性予測において、反事実的説明は予測行動を理解する方法を提供する。
本研究では,不確実性の高い候補をフィルタするための不確実性推定手法の統合を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:07:30Z) - Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。
我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - FairlyUncertain: A Comprehensive Benchmark of Uncertainty in Algorithmic Fairness [4.14360329494344]
フェアネスにおける不確実性評価のための公理的ベンチマークであるFairlyUncertainを紹介する。
我々のベンチマークは、予測の不確実性推定は学習パイプライン間で一貫性があり、観測されたランダム性に調整されるべきである、と示唆している。
論文 参考訳(メタデータ) (2024-10-02T20:15:29Z) - Auditing Fairness under Unobserved Confounding [56.61738581796362]
意外なことに、リスクの高い人に対する治療率の有意義な限界を計算できることが示されています。
現実の多くの環境では、リスクの偏りのない見積を導き出すために、アロケーションの前にデータを持っているという事実を使用します。
論文 参考訳(メタデータ) (2024-03-18T21:09:06Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Regions of Reliability in the Evaluation of Multivariate Probabilistic
Forecasts [73.33395097728128]
時系列予測評価のための適切なスコアリングルールに関する最初の体系的な有限サンプル研究を提供する。
本研究では, 地中構造と予測分布のいくつかの重要な相違点をテストするために, 総合的な総合的合成ベンチマークを用いて解析を行った。
論文 参考訳(メタデータ) (2023-04-19T17:38:42Z) - Fairness through Aleatoric Uncertainty [18.95295731419523]
フェアネス・ユーティリティ・トレードオフを改善するために、アレタリック不確実性(例えば、データのあいまいさ)を活用するという考え方を紹介します。
我々の中心的な仮説は、アレタリック不確実性はアルゴリズムの公正性の鍵となる要素であるということである。
次に,アレータリック不確実性が高い場合の公平性を向上し,他の分野での有効性を向上させるための基本モデルを提案する。
論文 参考訳(メタデータ) (2023-04-07T13:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。