Fugu-MT 論文翻訳(概要): LLM-as-a-Judge in Healthcare: A Scoping Analysis of Applications, Methods, and Human Alignment

論文の概要: LLM-as-a-Judge in Healthcare: A Scoping Analysis of Applications, Methods, and Human Alignment

arxiv url: http://arxiv.org/abs/2605.25273v1
Date: Sun, 24 May 2026 21:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.058243
Title: LLM-as-a-Judge in Healthcare: A Scoping Analysis of Applications, Methods, and Human Alignment
Title（参考訳）: LLM-as-a-Judge in Healthcare: A Scoping Analysis of Applications, Methods, and Human Asignment (特集医療におけるLCM-as-a-Judge in Healthcare)
Authors: Lingyao Li, Deyi Li, Chen Chen, Renkai Ma, Runlong Yu, Mingquan Lin, Rui Yin, Lizhou Fan, Cathy Shyr, Siyuan Ma, Mei Liu, Steven Bethard,
Abstract要約: 大規模言語モデル(LLM)は、臨床ドキュメント、診断推論、医学勧告、医学教育など、医療分野にまたがる展開が増えている。 LLMs-as-a-Judgeは、スケーラブルな代替手段を提供し、臨床評価にますます利用されているが、医療におけるその妥当性は依然として過小評価されている。
参考スコア（独自算出の注目度）: 29.53435959107992
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly deployed across healthcare applications, including clinical documentation, diagnostic reasoning, medicine recommendation, and medical education. Their outputs are largely unstructured clinical text, which is difficult to reliably evaluate at scale. LLM-as-a-Judge, in which an LLM evaluates another system's output against task-specific criteria, offers a scalable alternative and is increasingly used in clinical evaluation, yet its validity in healthcare remains underexamined. Existing reviews focus on general-purpose LLM evaluation or on risk framework, rather than systematically characterizing how LLM-as-a-Judge is applied in healthcare and how well their judgments align with human experts. We therefore conduct a PRISMA-guided comprehensive review of LLM-as-a-Judge applications in healthcare, searching five databases for studies published between January 2023 and February 2026. After screening 541 records, 134 studies meet the eligibility and are coded by health scenario, judge configuration, technical approach, and validation design. LLM-as-a-Judge is concentrated in clinical decision support, clinical natural language processing (NLP), medical knowledge and question answering (QA), and medical communication. OpenAI models are the most frequently used judges, and prompt engineering appears in nearly all studies, with ensemble, multi-agent, and retrieval-augmented designs as common extensions. Among studies reporting human validation, LLM judges often show moderate to strong alignment with expert judgments, although reliability varies substantially across tasks. Overall, this review positions LLM-as-a-Judge as a promising framework for scalable healthcare AI evaluation, while emphasizing that its clinical value depends on model design and rigorous validation.
Abstract（参考訳）: 大規模言語モデル(LLM)は、臨床ドキュメント、診断推論、医学勧告、医学教育など、医療分野にまたがる展開が増えている。アウトプットは概ね非構造化な臨床テキストであり,大規模に評価することは困難である。 LLM-as-a-Judgeは、LCMが別のシステムのアウトプットをタスク固有の基準に対して評価するが、スケーラブルな代替手段を提供し、臨床評価にますます利用されているが、医療におけるその妥当性は過小評価されている。既存のレビューでは、医療におけるLCM-as-a-Judgeの適用方法や、その判断が人間の専門家とどのように一致しているかを体系的に特徴づけるのではなく、汎用LSM評価やリスク・フレームワークに焦点を当てている。そこで我々は,2023年1月から2026年2月にかけて,医療分野におけるLCM-as-a-Judge適用の総合的なレビューを行い,5つのデータベースを検索した。 541レコードをスクリーニングした後、134の研究では、健康シナリオ、審査設定、技術的なアプローチ、検証設計によってコード化されている。 LLM-as-a-Judgeは、臨床意思決定支援、臨床自然言語処理(NLP)、医学知識と質問応答(QA)、医療コミュニケーションに集中している。 OpenAIモデルは最も頻繁に使用される審査員であり、アンサンブル、マルチエージェント、検索強化デザインを共通拡張として、ほとんどすべての研究に即時エンジニアリングが現れる。人間のバリデーションを報告している研究の中で、LLMの審査員は専門家の判断と適度から強い整合性を示すことが多いが、信頼性はタスクによって大きく異なる。全体として、このレビューはLSM-as-a-JudgeをスケーラブルなヘルスケアAI評価のための有望なフレームワークとして位置づけ、その臨床的価値はモデル設計と厳格な検証に依存している、と強調する。

関連論文リスト

Comparative Analysis of Large Language Models in Healthcare [1.9704270315085601]
大規模言語モデル(LLM)は、医療における人工知能の応用を変革している。高度な臨床環境への展開は、正確性、信頼性、患者の安全性に関する重要な懸念を提起する。本研究は,医療現場におけるLCMの標準化された比較評価の必要性に対処するものである。
論文参考訳（メタデータ） (2026-04-11T18:47:54Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2024-09-11T14:44:51Z)
Does Biomedical Training Lead to Better Medical Performance? [7.341724934479004]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。本研究では, バイオメディカルトレーニングが6つの実践的医療課題の文脈に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-04-05T12:51:37Z)
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。本稿では,医学におけるLSMの応用と意義について概説する。
論文参考訳（メタデータ） (2023-11-03T13:51:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。