論文の概要: Measuring What Matters: Benchmarking Generative, Multimodal, and Agentic AI in Healthcare
- arxiv url: http://arxiv.org/abs/2605.08445v1
- Date: Fri, 08 May 2026 20:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.649037
- Title: Measuring What Matters: Benchmarking Generative, Multimodal, and Agentic AI in Healthcare
- Title(参考訳): 重要なことを測定する:医療における生成、マルチモーダル、エージェントAIのベンチマーク
- Authors: Prasanna Desikan, Harshit Rajgarhia, Shivali Dalmia, Ananya Mantravadi,
- Abstract要約: 医療AIの主な課題は、パフォーマンスのみではなく、実際の状況下での信頼性、安全性、臨床関連性を測定する体系的な方法がないことである。
現在のベンチマークでは、モデルが知っていることをテストしています。
高いベンチマークスコアは、デプロイの準備ができているという誤った感覚を与え、パフォーマンスとユーティリティのギャップを正確に広げる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI models are increasingly deployed in live clinical environments where they must perform reliably across complex, high-stakes workflows that standard training and validation datasets were never designed to capture. Evaluating these systems requires benchmarks: structured combinations of tasks, datasets, and metrics that enable reproducible, comparable measurement of what a model can do. The central challenge in healthcare AI is not performance alone, but the absence of systematic methods to measure reliability, safety, and clinical relevance under real-world conditions. Most existing benchmarks test what a model knows; too few test whether it can perform reliably and without failing across the full complexity of real clinical tasks. Current benchmarks have accumulated through ad hoc dataset construction optimized for narrow task performance: frontier models achieve near-perfect scores on medical licensing examinations, but when evaluated across real clinical tasks, performance degrades sharply, scoring 0.74--0.85 on documentation, 0.61--0.76 on clinical decision support, and only 0.53--0.63 on administrative and workflow tasks \cite{medhelm}. High benchmark scores give a false sense of deployment readiness, and the gap between performance and utility widens precisely as AI systems take on more consequential clinical roles. Without a principled framework for benchmark design, the field cannot determine whether poor clinical performance reflects model limitations or failures in how performance is being measured.
- Abstract(参考訳): AIモデルは、標準的なトレーニングやバリデーションデータセットがキャプチャに設計されていない複雑な高レベルのワークフローに対して、確実に機能する必要がある、ライブな臨床環境にますますデプロイされている。
これらのシステムを評価するには、モデルにできることを再現可能な、同等の計測を可能にするタスク、データセット、メトリクスの構造化された組み合わせという、ベンチマークが必要です。
医療AIにおける中心的な課題は、パフォーマンスのみではなく、現実の状況下での信頼性、安全性、臨床関連性を測定するための体系的な方法がないことである。
ほとんどの既存のベンチマークは、モデルが知っていることをテストします。
フロンティアモデルでは、医療ライセンス試験においてほぼ完全なスコアを達成しているが、実際の臨床タスクで評価されると、パフォーマンスが急激に低下し、ドキュメントでは0.74-0.85、臨床決定サポートでは0.61-0.76、管理およびワークフロータスクでは0.53-0.63となっている。
高いベンチマークスコアは、デプロイの準備ができているという誤った感覚を与え、パフォーマンスとユーティリティのギャップを正確に広げる。
ベンチマーク設計の原則的なフレームワークがなければ、臨床的パフォーマンスの貧弱さがモデルの制限やパフォーマンスの計測方法の失敗を反映しているかどうかを判断することはできない。
関連論文リスト
- Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - AgentScore: Autoformulation of Deployable Clinical Scoring Systems [45.88028371034407]
本稿では,単位重み付き臨床チェックリストのセマンティックガイドによる最適化を行うAgentScoreを紹介する。
AgentScoreは既存のスコア生成方法より優れており、より柔軟な解釈可能なモデルに匹敵するAUCを実現している。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
論文 参考訳(メタデータ) (2026-01-29T21:11:06Z) - Intervention Efficiency and Perturbation Validation Framework: Capacity-Aware and Robust Clinical Model Selection under the Rashomon Effect [8.16102315566872]
同等のパフォーマンスを持つ複数のモデルの共存は、信頼できるデプロイメントと評価に根本的な課題をもたらします。
我々は,頑健なモデルアセスメントと選択のための2つの補完的ツールを提案する: 介入効率(IE)と摂動検証フレームワーク(PVF)。
IEはキャパシティを意識したメトリクスであり、限られた介入しか実現できない場合、モデルが実行可能な真の正をいかに効率的に識別するかを定量化する。
PVFは、データ摂動下でのモデルの安定性を評価するための構造化されたアプローチを導入し、ノイズやシフトした検証セット間で性能が最も不変なモデルを特定する。
論文 参考訳(メタデータ) (2025-11-18T10:21:07Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - TrialMatchAI: An End-to-End AI-powered Clinical Trial Recommendation System to Streamline Patient-to-Trial Matching [0.0]
本稿では,患者間マッチングを自動化するAIを利用したレコメンデーションシステムTrialMatchAIを提案する。
微調整されたオープンソースの大規模言語モデルに基づいて構築されたTrialMatchAIは、透明性を確保し、軽量なデプロイメントフットプリントを維持する。
現実のバリデーションでは、腫瘍学患者の92%が、少なくとも1つの関連するトライアルを、トップ20のレコメンデーションで回収した。
論文 参考訳(メタデータ) (2025-05-13T12:39:06Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals [4.799783526620609]
臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。
450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
論文 参考訳(メタデータ) (2022-01-18T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。