論文の概要: Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI
- arxiv url: http://arxiv.org/abs/2603.11413v1
- Date: Thu, 12 Mar 2026 00:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.798658
- Title: Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI
- Title(参考訳): モデル能力ではなく評価形式は、消費者健康AIの評価においてトリアージ障害を引き起こす
- Authors: David Fraile Navarro, Farah Magrabi, Enrico Coiera,
- Abstract要約: ChatGPT Healthは緊急事態の51.6%を減らし、消費者が直面するAIトリアージは安全リスクをもたらすと結論付けた。
5つのフロンティア LLM (GPT-5.2, Claude Sonnet 4.6, Claude Opus 4.6, Gemini 3 Flash, Gemini 3.1 Pro) を17-scenario部分レプリケーションバンク上でテストした。
見出しのアンダートリアージレートは評価形式に強く依存しており、デプロイされたトリアージの挙動を安定的に見積もってはならない。
- 参考スコア(独自算出の注目度): 3.910019733981544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ramaswamy et al. reported in \textit{Nature Medicine} that ChatGPT Health under-triages 51.6\% of emergencies, concluding that consumer-facing AI triage poses safety risks. However, their evaluation used an exam-style protocol -- forced A/B/C/D output, knowledge suppression, and suppression of clarifying questions -- that differs fundamentally from how consumers use health chatbots. We tested five frontier LLMs (GPT-5.2, Claude Sonnet 4.6, Claude Opus 4.6, Gemini 3 Flash, Gemini 3.1 Pro) on a 17-scenario partial replication bank under constrained (exam-style, 1,275 trials) and naturalistic (patient-style messages, 850 trials) conditions, with targeted ablations and prompt-faithful checks using the authors' released prompts. Naturalistic interaction improved triage accuracy by 6.4 percentage points ($p = 0.015$). Diabetic ketoacidosis was correctly triaged in 100\% of trials across all models and conditions. Asthma triage improved from 48\% to 80\%. The forced A/B/C/D format was the dominant failure mechanism: three models scored 0--24\% with forced choice but 100\% with free text (all $p < 10^{-8}$), consistently recommending emergency care in their own words while the forced-choice format registered under-triage. Prompt-faithful checks on the authors' exact released prompts confirmed the scaffold produces model-dependent, case-dependent results. The headline under-triage rate is highly contingent on evaluation format and should not be interpreted as a stable estimate of deployed triage behavior. Valid evaluation of consumer health AI requires testing under conditions that reflect actual use.
- Abstract(参考訳): Ramaswamyらは『textit{Nature Medicine}』で、ChatGPT Healthは51.6\%の緊急事態を負っており、消費者が直面するAIトリアージは安全リスクをもたらすと報告している。
しかし、彼らの評価では、テストスタイルのプロトコル(A/B/C/D出力、知識の抑制、質問の明確化など)を使用しており、これは消費者がヘルスチャットボットを使う方法と根本的に異なる。
我々は,制約付き (exam-style, 1,275 trial, 850 trial) と自然主義的 (患者スタイルのメッセージ, 850 trial) な条件下で, 著者がリリースしたプロンプトを用いて, 目標とするアブリゲーションと即時チェックを用いて, 5つのフロンティア LLM (GPT-5.2, Claude Sonnet 4.6, Claude Opus 4.6, Gemini 3 Flash, Gemini 3.1 Pro) をテストした。
自然主義的相互作用によりトリアージ精度は6.4ポイント向上した(p = 0.015$)。
糖尿病性ケトアシドーシスは、すべてのモデルおよび条件で100 %の臨床試験で正しく改善された。
喘息は48\%から80\%に改善した。
強制的なA/B/C/Dフォーマットは3つのモデルで0-24\%を強制的選択で獲得するが、100\%を自由テキスト(すべて$p < 10^{-8}$)で獲得し、強制選択形式は従量制で登録された。
著者の正確な公開プロンプトのプロンプトは、足場がモデルに依存し、ケースに依存した結果を生成することを確認した。
見出しのアンダートリアージレートは評価形式に強く依存しており、デプロイされたトリアージの挙動を安定的に見積もってはならない。
消費者健康AIの妥当性評価には、実際の使用を反映した条件下でのテストが必要である。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment [0.0]
小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。
臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
論文 参考訳(メタデータ) (2026-03-01T04:37:48Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。
本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T16:40:41Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Generative AI as an Educational Tool for Radiology Resident Report Drafting [1.5457333450799497]
本研究は,HIPAA 準拠の GPT-4o システムを用いて,実地臨床環境において住民が作成した乳房画像報告を自動的にフィードバックするシステムについて検討した。
1) キー発見の欠落または追加,(2) 技術的記述子の誤用または欠落,(3) 結果と一致しない最終評価の3つの一般的な誤り型が同定された。
GPT-4oは、90.5%、78.3%、90.4%のエラータイプで、コンセンサスに強く同意している。
論文 参考訳(メタデータ) (2025-09-22T20:51:09Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。