Fugu-MT 論文翻訳(概要): The Validity Gap in Health AI Evaluation: A Cross-Sectional Analysis of Benchmark Composition

論文の概要: The Validity Gap in Health AI Evaluation: A Cross-Sectional Analysis of Benchmark Composition

arxiv url: http://arxiv.org/abs/2603.18294v1
Date: Wed, 18 Mar 2026 21:31:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.853515
Title: The Validity Gap in Health AI Evaluation: A Cross-Sectional Analysis of Benchmark Composition
Title（参考訳）: 健康AI評価における妥当性のギャップ:ベンチマーク組成の横断的分析
Authors: Alvin Rajkomar, Pavan Sudarshan, Angela Lai, Lily Peng,
Abstract要約: 6つの公開ベンチマークで18,707のコンシューマヘルスクエリを分析した。発見: 臨床組成は、現実世界のニーズと相容れないままである。フィールドは、臨床実践の完全複雑さと評価を整合させるために、標準化されたクエリプロファイリングを採用しなければならない。
参考スコア（独自算出の注目度）: 0.19599274203282302
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Background: Clinical trials rely on transparent inclusion criteria to ensure generalizability. In contrast, benchmarks validating health-related large language models (LLMs) rarely characterize the "patient" or "query" populations they contain. Without defined composition, aggregate performance metrics may misrepresent model readiness for clinical use. Methods: We analyzed 18,707 consumer health queries across six public benchmarks using LLMs as automated coding instruments to apply a standardized 16-field taxonomy profiling context, topic, and intent. Results: We identified a structural "validity gap." While benchmarks have evolved from static retrieval to interactive dialogue, clinical composition remains misaligned with real-world needs. Although 42% of the corpus referenced objective data, this was polarized toward wellness-focused wearable signals (17.7%); complex diagnostic inputs remained rare, including laboratory values (5.2%), imaging (3.8%), and raw medical records (0.6%). Safety-critical scenarios were effectively absent: suicide/self-harm queries comprised <0.7% of the corpus and chronic disease management only 5.5%. Benchmarks also neglected vulnerable populations (pediatrics/older adults <11%) and global health needs. Conclusions: Evaluation benchmarks remain misaligned with real-world clinical needs, lacking raw clinical artifacts, adequate representation of vulnerable populations, and longitudinal chronic care scenarios. The field must adopt standardized query profiling--analogous to clinical trial reporting--to align evaluation with the full complexity of clinical practice.
Abstract（参考訳）: 背景: 臨床試験は、一般化性を確保するために透明な包含基準に依存している。対照的に、健康関連大規模言語モデル(LLM)を検証するベンチマークは、彼らが含む「患者」や「クエリー」の人口を特徴付けることは滅多にない。構成が定義されていない場合、アグリゲーション・パフォーマンス・メトリクスは、臨床的使用のためのモデル準備性を誤って表現する可能性がある。方法: LLMを自動符号化器として用いて6つの公開ベンチマークで18,707の消費者健康クエリを分析し,標準化された16分野の分類分類プロファイルコンテキスト,トピック,インテントを適用した。結果: 構造的「妥当性ギャップ」を同定した。ベンチマークは静的検索から対話的対話へと進化してきたが、臨床構成は現実世界のニーズと相容れないままである。コーパスの42%が客観的データを参照していたが、これはウェルネスに焦点を当てたウェアラブル信号(17.7%)に偏り、検査値(5.2%)、画像(3.8%)、生の医療記録(0.6%)を含む複雑な診断入力は稀であった。自殺/自己傷のクエリは、コーパスの0.7%を占め、慢性疾患の管理は5.5%に過ぎなかった。ベンチマークでは、脆弱な人口(小児・高齢者<11%)と世界的な健康ニーズも無視された。結論: 評価ベンチマークは、生の臨床的アーティファクトの欠如、脆弱な集団の適切な表現、慢性的な治療シナリオなど、実際の臨床ニーズと相容れないままである。専門分野は、標準化されたクエリプロファイリング(治験報告と類似)を採用し、臨床実践の完全複雑さと評価を整合させる必要がある。

関連論文リスト

QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models [8.050059911826338]
LLM(Large Language Models)は、標準化された医療試験に優れるが、高いスコアは、現実世界の医療クエリに対する高品質な応答に変換できないことが多い。実世界の医療LCM評価に適した生態学的に有効なベンチマークであるQuarkMedBenchを紹介する。
論文参考訳（メタデータ） (2026-03-14T01:51:43Z)
PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。 LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文参考訳（メタデータ） (2026-02-18T03:59:46Z)
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation [22.211535340726073]
LiveMedBenchは、オンライン医療コミュニティからリアルな臨床ケースを抽出する、継続的に更新されたベンチマークである。 LiveMedBenchは、38の専門医と複数の言語にまたがる2,756の現実世界のケースで構成され、16,702のユニークな評価基準と組み合わせている。大規模な評価では、最高のパフォーマンスモデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能劣化を示す。
論文参考訳（メタデータ） (2026-02-10T23:38:25Z)
Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-21T16:40:41Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Improving Patient Pre-screening for Clinical Trials: Assisting Physicians with Large Language Models [0.0]
LLM(Large Language Models)は臨床情報抽出や臨床推論に有効であることが示されている。本稿では,患者の総合的医療プロファイルに基づく臨床治験の適性判定に医師を支援するために,インストラクションGPTを用いることを検討した。
論文参考訳（メタデータ） (2023-04-14T21:19:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。