論文の概要: AcuityBench: Evaluating Clinical Acuity Identification and Uncertainty Alignment
- arxiv url: http://arxiv.org/abs/2605.11398v1
- Date: Tue, 12 May 2026 01:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.514878
- Title: AcuityBench: Evaluating Clinical Acuity Identification and Uncertainty Alignment
- Title(参考訳): AcuityBench: Acuity Identificationと不確実性アライメントの評価
- Authors: Robin Linzmayer, Georgianna Lin, Di Coneybeare, Jason Chu, Trudi Cloyd, Manish Garg, Miles Gordon, Elizabeth Hartofilis, Benjamin Hong, Ashraf Hussain, Eugene Y. Kim, Oluchi Iheagwara King, Ross McCormack, Erica Olsen, John K. Riggins, Mustafa N. Rasheed, Dana L. Sacco, Vinay Saggar, Osman R. Sayan, Amit Shembekar, Janice Shin-Kim, Wendy W. Sun, Bernard P. Chang, David Kessler, Noémie Elhadad,
- Abstract要約: AcuityBenchは、言語モデルがユーザの医療プレゼンテーションから適切なケアの緊急性を特定するかどうかを評価するためのベンチマークである。
ユーザ会話、オンラインフォーラム投稿、臨床ヴィグネット、患者のポータルメッセージにまたがる5つの公開データセットで構成されている。
QA設定での明示的な4方向分類と、ルーリックベースの判定器で評価された自由形式の会話応答の2つの補完的なタスク形式をサポートする。
- 参考スコア(独自算出の注目度): 3.1849948640573245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AcuityBench, a benchmark for evaluating whether language models identify the appropriate urgency of care from user medical presentations. Existing health benchmarks emphasize medical question answering, broad health interactions, or narrow workflow-specific triage tasks, but they do not offer a unified evaluation of acuity identification across these settings. AcuityBench addresses this gap by harmonizing five public datasets spanning user conversations, online forum posts, clinical vignettes, and patient portal messages under a shared four-level acuity framework ranging from home monitoring to immediate emergency care. The benchmark contains 914 cases, including 697 consensus cases for standard accuracy evaluation and 217 physician-confirmed ambiguous cases for uncertainty-aware evaluation. It supports two complementary task formats: explicit four-way classification in a QA setting, and free-form conversational responses evaluated with a rubric-based judge anchored to the same framework. Across 12 frontier proprietary and open-weight models, we find substantial variation in clear-case acuity accuracy and error direction. Comparing task formats reveals a systematic tradeoff: conversational responses reduce over-triage but increase under-triage relative to QA, especially in higher-acuity cases. In ambiguous cases, no model closely matches the distribution of physician judgments, and model predictions are more concentrated than expert clinical uncertainty. We also compare expert and model adjudication on a subset of maximally ambiguous cases, using those cases to examine the role of clinical uncertainty in label disagreement. Together, these results position acuity identification as a distinct safety-critical capability and show that AcuityBench enables systematic comparison and stress-testing of how well models guide users to the right level of care in real-world health use.
- Abstract(参考訳): AcuityBenchは、言語モデルが患者の医療プレゼンテーションから適切なケアの緊急性を特定するかどうかを評価するためのベンチマークである。
既存の健康ベンチマークでは、医療質問応答、広範囲な健康相互作用、ワークフロー固有のトリアージタスクが重視されているが、これらの設定全体での明度識別の統一的な評価は提供されていない。
AcuityBenchはこのギャップに対処するため、ユーザの会話、オンラインフォーラム投稿、臨床用ウィグネット、および患者のポータルメッセージを含む5つの公開データセットを、ホーム監視から緊急医療まで、共有された4レベルのアクティフレームワークで調和させることで対処する。
このベンチマークには、標準精度評価のための697のコンセンサスケースと、不確実性評価のための医師確認曖昧な217のケースを含む、914のケースが含まれている。
QA設定での明示的な4方向分類と、同じフレームワークに固定されたルーリックベースの裁判官で評価された自由形式の会話応答の2つの補完的なタスク形式をサポートする。
12のフロンティアプロプライエタリモデルとオープンウェイトモデルで、クリアケースの明度精度と誤差方向がかなり異なることが判明した。
会話応答は過剰なトリアージを減少させるが、特に高頻度の場合において、QAに対する過度なトリアージを増大させる。
曖昧なケースでは、医師の判断の分布と密に一致したモデルはなく、モデル予測は専門的な臨床的不確実性よりも集中している。
また, ラベル不一致における臨床的不確実性の役割を検討するために, 極端に曖昧な症例のサブセットについて, 専門家およびモデル偏見を比較した。
これらの結果から,AcuityBenchは,患者を適切なケアレベルに導く方法の体系的比較とストレステストを可能にすることを示す。
関連論文リスト
- Medical Model Synthesis Architectures: A Case Study [72.46211022258122]
現在のAIシステムは、不確実性の下で調整された推論に苦労している。
我々は,不確実性の下で,現実的に有用だが公式に透過的な臨床予測を行うことができるAIシステムのためのフレームワークを提案する。
このフレームワークの最初の概念実証は、どのようにして差分診断に利用できるかを示す。
論文 参考訳(メタデータ) (2026-05-10T19:30:16Z) - Green Shielding: A User-Centric Approach Towards Trustworthy AI [19.485991712624095]
Green Shieldingはエビデンスベースのデプロイメントガイダンスを構築するための,ユーザ中心のアジェンダだ。
HealthCareMagic-Diagnosis による医療診断における Green Shielding のインスタンス化
ここでは医療診断においてインスタンス化されているが、アジェンダは他の意思決定支援設定やエージェントAIシステムに自然に拡張されている。
論文 参考訳(メタデータ) (2026-04-27T17:04:17Z) - QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models [8.050059911826338]
LLM(Large Language Models)は、標準化された医療試験に優れるが、高いスコアは、現実世界の医療クエリに対する高品質な応答に変換できないことが多い。
実世界の医療LCM評価に適した生態学的に有効なベンチマークであるQuarkMedBenchを紹介する。
論文 参考訳(メタデータ) (2026-03-14T01:51:43Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。
本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T16:40:41Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - PersonalizedUS: Interpretable Breast Cancer Risk Assessment with Local Coverage Uncertainty Quantification [2.6911061523689415]
現在の「ゴールドスタンダード」は、臨床医による手動のBI-RADSスコアに依存しており、しばしば不必要な生検や、患者とその家族に対する精神的な負担を伴っている。
我々は、直列予測の最近の進歩を活用して、正確でパーソナライズされたリスク推定を提供する、パーソナライズされた機械学習システムであるPersonalizedUSを紹介する。
具体的な臨床効果としては、BI-RADS 4aと4bの病変のうち、要求された生検を最大で65%減らし、がんの再発は最小限である。
論文 参考訳(メタデータ) (2024-08-28T00:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。