論文の概要: Same Verdict, Different Reasons: LLM-as-a-Judge and Clinician Disagreement on Medical Chatbot Completeness
- arxiv url: http://arxiv.org/abs/2604.16383v1
- Date: Thu, 26 Mar 2026 19:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.948777
- Title: Same Verdict, Different Reasons: LLM-as-a-Judge and Clinician Disagreement on Medical Chatbot Completeness
- Title(参考訳): LLM-as-a-Judgeと医用チャットボットの完全性に関する臨床解剖
- Authors: Alexandra DeLucia, Heyuan Huang, Sonal Joshi, Mahsa Yarmohammadi, Ahmed Hassoon, Mark Dredze,
- Abstract要約: 不完全な患者の医療反応を検出するために,この仮定をストレステストする。
我々は,2つの臨床診断データセットにわたる3つの粒度(General-Likert,Analytical-Rubric,Dynamic-Checklist)と3つのバックボーンモデルを評価する。
- 参考スコア(独自算出の注目度): 49.2667937337333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-Judge frameworks are increasingly trusted to automate evaluation in place of human experts, yet their reliability in high-stakes medical contexts remains unproven. We stress-test this assumption for detecting incomplete patient-facing medical responses, evaluating three rubric granularities (General-Likert, Analytical-Rubric, Dynamic-Checklist) and three backbone models across two clinician-annotated datasets, including HealthBench, the largest publicly available benchmark for medical response evaluation. LLM Judges discriminate complete from incomplete responses at and slightly above near chance (AUC $0.49$--$0.66$); at the threshold required to recall $90\%$ of incomplete responses, clinicians must still review the vast majority of the dataset, offering no triage utility. Even when model and clinician verdicts agree, they rarely cite the same explanation; and when they diverge, false positives stem from over-flagging non-essential gaps while false negatives reflect outright detection failures. These results reveal that LLM Judges and clinicians apply fundamentally different completeness standards; a finding that undermines their use as autonomous evaluators or triage filters in clinical settings.
- Abstract(参考訳): LLM-as-a-Judgeフレームワークは、人間の専門家の代わりに評価を自動化することがますます信頼されている。
患者に対する不完全な医療反応を検出するためのこの仮定をストレステストし、3つのルーブリックな粒度(General-Likert, Analytical-Rubric, Dynamic-Checklist)と2つの臨床診断データセットのバックボーンモデル(HealthBenchなど)を評価した。
LLM判事は、不完全な応答をほぼ近い確率(AUC $0.49$--0.66$)で完全に区別し、90\%の不完全な応答をリコールするのに必要なしきい値では、臨床医は依然としてデータセットの大部分をレビューし、トリアージユーティリティを提供しない。
モデルと臨床の評決が一致しても、彼らはほとんど同じ説明を引用しない。
これらの結果から, LLM審査員と臨床医は, 基本的に異なる完全性基準を適用していることが明らかとなった。
関連論文リスト
- Faithful or Just Plausible? Evaluating the Faithfulness of Closed-Source LLMs in Medical Reasoning [0.0]
我々は,広く使用されている3つの大規模言語モデルの中で,医学的推論における忠実度を体系的に評価する。
CoT推論のステップは、しばしば予測を因果的に駆動せず、モデルは、認識せずに容易に外部ヒントを組み込む。
論文 参考訳(メタデータ) (2026-03-14T15:30:53Z) - MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation [22.211535340726073]
LiveMedBenchは、オンライン医療コミュニティからリアルな臨床ケースを抽出する、継続的に更新されたベンチマークである。
LiveMedBenchは、38の専門医と複数の言語にまたがる2,756の現実世界のケースで構成され、16,702のユニークな評価基準と組み合わせている。
大規模な評価では、最高のパフォーマンスモデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能劣化を示す。
論文 参考訳(メタデータ) (2026-02-10T23:38:25Z) - Uncovering Latent Bias in LLM-Based Emergency Department Triage Through Proxy Variables [2.9269181918140643]
本稿では,大規模言語モデル(LLM)に基づく救急医療用AIシステムのバイアスについて検討する。
その結果,EDトリアージシナリオにおいて,プロキシ変数を介する識別行動が明らかになった。
これらの結果は、AIシステムは未だにノイズ、時には正真正銘を確実に反映しない非因果信号に基づいて不完全に訓練されていることを示唆している。
論文 参考訳(メタデータ) (2026-01-13T07:49:41Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。