論文の概要: Decomposing Physician Disagreement in HealthBench
- arxiv url: http://arxiv.org/abs/2602.22758v1
- Date: Thu, 26 Feb 2026 08:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.603749
- Title: Decomposing Physician Disagreement in HealthBench
- Title(参考訳): HealthBenchにおける医学的診断の分解
- Authors: Satya Borgohain, Roy Mariathas,
- Abstract要約: 医療用AI評価データセット「HealthBench」で医師の意見の相違を分解し、変動がどこにあるのか、観察可能な特徴が説明できるのかを理解する。
81.8%のケースレベル残基はHealthBenchのメタデータラベルによって減少しない。
診断は、完了品質の逆Uに従っており、医師が明確な良し悪しのアウトプットについて合意するが、境界線のケースでは分割される。
- 参考スコア(独自算出の注目度): 0.0687531213383208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We decompose physician disagreement in the HealthBench medical AI evaluation dataset to understand where variance resides and what observable features can explain it. Rubric identity accounts for 15.8% of met/not-met label variance but only 3.6-6.9% of disagreement variance; physician identity accounts for just 2.4%. The dominant 81.8% case-level residual is not reduced by HealthBench's metadata labels (z = -0.22, p = 0.83), normative rubric language (pseudo R^2 = 1.2%), medical specialty (0/300 Tukey pairs significant), surface-feature triage (AUC = 0.58), or embeddings (AUC = 0.485). Disagreement follows an inverted-U with completion quality (AUC = 0.689), confirming physicians agree on clearly good or bad outputs but split on borderline cases. Physician-validated uncertainty categories reveal that reducible uncertainty (missing context, ambiguous phrasing) more than doubles disagreement odds (OR = 2.55, p < 10^(-24)), while irreducible uncertainty (genuine medical ambiguity) has no effect (OR = 1.01, p = 0.90), though even the former explains only ~3% of total variance. The agreement ceiling in medical AI evaluation is thus largely structural, but the reducible/irreducible dissociation suggests that closing information gaps in evaluation scenarios could lower disagreement where inherent clinical ambiguity does not, pointing toward actionable evaluation design improvements.
- Abstract(参考訳): 医療用AI評価データセット「HealthBench」で医師の意見の相違を分解し、変動がどこにあるのか、観察可能な特徴が説明できるのかを理解する。
ルブリック・アイデンティティ(英語版)は15.8%のマッチ/ノット・ラベルのばらつきがあるが、不一致のばらつきは3.6-6.9%に過ぎず、医師のアイデンティティ(英語版)は2.4%に過ぎなかった。
81.8%のケースレベル残基は、HealthBenchのメタデータラベル(z = -0.22, p = 0.83)、規範的なルブリック言語(pseudo R^2 = 1.2%)、医療専門用語(0/300 タキー対が有意)、表面のトリアージ(AUC = 0.58)、埋め込み(AUC = 0.485)によって減少しない。
診断は、完了品質の逆U(AUC = 0.689)に従っており、医師が明確な良否のアウトプットについて同意するが、境界線のケースで意見が分かれる。
不確実性 (OR = 2.55, p < 10^(-24)) が、既約不確実性 (遺伝子医学的曖昧さ) には効果がない(OR = 1.01, p = 0.90)が、前者でさえ全分散の3%程度しか説明していない。
医療AI評価における合意の天井は、概ね構造的だが、再現可能/未承認の解離は、評価シナリオにおける情報ギャップの閉ざしは、実際の臨床の曖昧さがなければ、実用的な評価設計の改善をめざして、意見の不一致を減少させる可能性があることを示唆している。
関連論文リスト
- Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。
入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文 参考訳(メタデータ) (2026-01-07T23:35:24Z) - Decomposing Uncertainty in Probabilistic Knowledge Graph Embeddings: Why Entity Variance Is Not Enough [0.0]
確率的知識グラフの埋め込みは、エンティティを分布として表現し、学習された分散を用いて不確実性を定量化する。
これらの分散は関係に依存しないため、関係文脈に関係なく実体は同一の不確実性を受ける。
関係文脈に依存しないエンティティレベルの統計のみを用いた不確実性推定器は、新しい文脈でほぼランダムなOOD検出を実現する。
論文 参考訳(メタデータ) (2025-12-26T12:38:43Z) - Prostate-VarBench: A Benchmark with Interpretable TabNet Framework for Prostate Cancer Variant Classification [14.190646211771073]
VUS(Variants of Uncertain Significance)は前立腺癌ゲノムの臨床的有用性を制限する。
Prostate-VarBenchは、prostate固有のベンチマークを作成するための、キュレートされたパイプラインである。
論文 参考訳(メタデータ) (2025-11-12T06:13:50Z) - MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning [7.167933033102407]
重篤な症状と症状を一定に保ちながら,患者代名詞のみを摂動する反ファクト・ベンチマークであるMEDEQUALQAを紹介する。
我々は、GPT-4.1モデルを評価し、代名詞の変種間の安定性を測定するために、推論トレース間のセマンティックテキスト類似性(STS)を計算する。
以上の結果から,総じて高い類似性(平均STS >0.80)を示した。
論文 参考訳(メタデータ) (2025-10-09T22:12:58Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Treatment Effect Risk: Bounds and Inference [58.442274475425144]
平均的な治療効果は社会福祉の変化を測定するため、たとえ肯定的であっても、人口の約10%に悪影響を及ぼすリスクがある。
本稿では,ICT分布のリスク条件値(CVaR)として定式化されたこの重要なリスク尺度をどう評価するかを検討する。
いくつかの境界は、複素CATE関数を単一の計量に要約したものと解釈することもでき、有界であることとは無関係に興味を持つ。
論文 参考訳(メタデータ) (2022-01-15T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。