論文の概要: A Scoping Review of LLM-as-a-Judge in Healthcare and the MedJUDGE Framework
- arxiv url: http://arxiv.org/abs/2604.25933v1
- Date: Fri, 03 Apr 2026 14:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.231179
- Title: A Scoping Review of LLM-as-a-Judge in Healthcare and the MedJUDGE Framework
- Title(参考訳): LLM-as-a-Judge in Healthcare and the MedJUDGE Framework
- Authors: Chenyu Li, Zohaib Akhtar, Mingu Kwak, Yuelyu Ji, Hang Zhang, Tracey Obi, Yufan Ren, Xizhi Wu, Sonish Sivarajkumar, Harold P. Lehmann, Shyam Visweswaran, Michael J. Becich, Danielle L. Mowery, Renxuan Liu, Haoyang Sun, Yanshan Wang,
- Abstract要約: LLM-as-a-Judge (LaaJ) は大規模言語モデルを用いてモデル出力を評価する。
採用が増えたにもかかわらず、バリデーションの厳格さは限られていた。
偏見検査のリスクは36の研究 (73.5%) で欠落しており、人口統計学的公正性はわずか1 (2.0%) であり、時間的安定性や患者の状況は評価されなかった。
臨床リスク層にまたがる妥当性,安全性,説明責任を重視したリスク階層化3ピラーフレームワークであるMedJUDGEを提案する。
- 参考スコア(独自算出の注目度): 11.502207790112344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) increasingly generate and process clinical text, scalable evaluation has become critical. LLM-as-a-Judge (LaaJ), which uses LLMs to evaluate model outputs, offers a scalable alternative to costly expert review, but its healthcare adoption raises safety and bias concerns. We conducted a PRISMA-ScR scoping review of six databases (January 2020-January 2026), screening 11,727 studies and including 49. The landscape was dominated by evaluation and benchmarking applications (n=37, 75.5%), pointwise scoring (n=42, 85.7%), and GPT-family judges (n=36, 73.5%). Despite growing adoption, validation rigor was limited: among 36 studies with human involvement, the median number of expert validators was 3, while 13 (26.5%) used none. Risk of bias testing was absent in 36 studies (73.5%), only 1 (2.0%) examined demographic fairness, and none assessed temporal stability or patient context. Deployment remained limited, with 1 study (2.0%) reaching production and four (8.2%) prototype stage. Importantly, these gaps may interact: when judges and evaluated systems share training data or architectures, they may inherit similar blind spots, and agreement metrics may fail to distinguish true validity from shared errors. Minimal human oversight, limited bias assessment, and model monoculture together represent a governance gap where current validation may miss clinically significant errors. To address this, we propose MedJUDGE (Medical Judge Utility, De-biasing, Governance and Evaluation), a risk-stratified three-pillar framework organized around validity, safety, and accountability across clinical risk tiers, providing deployment-oriented evaluation guidance for healthcare LaaJ systems.
- Abstract(参考訳): 大規模言語モデル(LLM)が臨床テキストを生成し,処理するにつれて,スケーラブルな評価が重要になっている。
LLM-as-a-Judge(LaaJ)はモデル出力の評価にLLMを使用するが、コストのかかる専門家レビューに代わるスケーラブルな代替手段を提供する。
PRISMA-ScRスコーピングによる6つのデータベース(2020年1月~2026年1月)のレビューを行い,11,727件,49件について検討した。
ランドスケープは評価とベンチマークのアプリケーション(n=37, 75.5%)、ポイントワイドスコア(n=42, 85.7%)、GPTファミリーの審査員(n=36, 73.5%)によって支配された。
採用率の増加にもかかわらず、検証の厳格さは制限されており、36の研究のうち、専門家のバリデーターの中央値は3人であり、13人(26.5%)は誰も使っていなかった。
偏見検査のリスクは36の研究 (73.5%) で欠落しており、人口統計学的公正性はわずか1 (2.0%) であり、時間的安定性や患者の状況は評価されなかった。
配備は限定的であり、1つの研究(2.0%)が生産され、4つのプロトタイプ(8.2%)が生産された。
判断と評価されたシステムがトレーニングデータやアーキテクチャを共有している場合、同様の盲点を継承する可能性がある。
最小限の人間の監視、限られたバイアス評価、モデルモノカルチャーは、現在のバリデーションが臨床的に重大なエラーを見逃す可能性のあるガバナンスギャップを表している。
そこで我々は,医療用LaaJシステムに対して,医療用LaaJシステムに対するデプロイ指向評価ガイダンスを提供することにより,医療用LaaJGE(医療用Utility, De-biasing,Government and Evaluation)を提案する。
関連論文リスト
- A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations [60.2076951536797]
大規模言語モデル(LLM)は、医療シナリオにますます多くデプロイされている。
LLMが会話中に臨床ガイドラインを特定・遵守できるのかは不明確である。
CPGBenchは、LSMの臨床ガイドラインの検出と付着能力をベンチマークする自動フレームワークである。
論文 参考訳(メタデータ) (2026-03-26T09:00:55Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation [22.211535340726073]
LiveMedBenchは、オンライン医療コミュニティからリアルな臨床ケースを抽出する、継続的に更新されたベンチマークである。
LiveMedBenchは、38の専門医と複数の言語にまたがる2,756の現実世界のケースで構成され、16,702のユニークな評価基準と組み合わせている。
大規模な評価では、最高のパフォーマンスモデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能劣化を示す。
論文 参考訳(メタデータ) (2026-02-10T23:38:25Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。