論文の概要: "Crash Test Dummies" for AI-Enabled Clinical Assessment: Validating Virtual Patient Scenarios with Virtual Learners
- arxiv url: http://arxiv.org/abs/2601.18085v1
- Date: Mon, 26 Jan 2026 02:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.626827
- Title: "Crash Test Dummies" for AI-Enabled Clinical Assessment: Validating Virtual Patient Scenarios with Virtual Learners
- Title(参考訳): AIによる臨床評価のための「クラッシュテストダミー」:仮想学習者による仮想患者シナリオの検証
- Authors: Brian Gin, Ahreum Lim, Flávia Silva e Oliveira, Kuan Xing, Xiaomei Song, Gayana Amiyangoda, Thilanka Seneviratne, Alison F. Doubleday, Ananya Gangopadhyaya, Bob Kiser, Lukas Shum-Tim, Dhruva Patel, Kosala Marambe, Lauren Maggio, Ara Tekian, Yoon Soo Park,
- Abstract要約: 医療と医療の専門職教育において、AIは仮想的な標準化された患者を含む臨床能力の評価にますます利用されている。
ほとんどの評価はAIと人間のインターレータの信頼性に依存しており、ケース、学習者、ラッカーが共同でスコアを形作るための測定フレームワークが欠如している。
事例と評価条件をまたいだ堅牢な能力評価のための,オープンソースのプラットフォームと測定モデルを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background: In medical and health professions education (HPE), AI is increasingly used to assess clinical competencies, including via virtual standardized patients. However, most evaluations rely on AI-human interrater reliability and lack a measurement framework for how cases, learners, and raters jointly shape scores. This leaves robustness uncertain and can expose learners to misguidance from unvalidated systems. We address this by using AI "simulated learners" to stress-test and psychometrically characterize assessment pipelines before human use. Objective: Develop an open-source AI virtual patient platform and measurement model for robust competency evaluation across cases and rating conditions. Methods: We built a platform with virtual patients, virtual learners with tunable ACGME-aligned competency profiles, and multiple independent AI raters scoring encounters with structured Key-Features items. Transcripts were analyzed with a Bayesian HRM-SDT model that treats ratings as decisions under uncertainty and separates learner ability, case performance, and rater behavior; parameters were estimated with MCMC. Results: The model recovered simulated learners' competencies, with significant correlations to the generating competencies across all ACGME domains despite a non-deterministic pipeline. It estimated case difficulty by competency and showed stable rater detection (sensitivity) and criteria (severity/leniency thresholds) across AI raters using identical models/prompts but different seeds. We also propose a staged "safety blueprint" for deploying AI tools with learners, tied to entrustment-based validation milestones. Conclusions: Combining a purpose-built virtual patient platform with a principled psychometric model enables robust, interpretable, generalizable competency estimates and supports validation of AI-assisted assessment prior to use with human learners.
- Abstract(参考訳): 背景: 医療・医療専門教育(HPE)では、仮想的な標準化された患者を含む臨床能力を評価するためにAIがますます使われています。
しかし、ほとんどの評価はAIと人間のインターレータの信頼性に依存しており、ケース、学習者、ラッカーが共同でスコアを形作るための測定フレームワークが欠如している。
このことは頑健さを損なうものであり、学習者が悪意のないシステムから誤認を犯す可能性がある。
我々は、AI「シミュレーション学習者」を用いてストレステストを行い、人間の使用前にアセスメントパイプラインを心理的に特徴付ける。
目的: ケースと評価条件をまたいだ堅牢な能力評価のための、オープンソースのAI仮想患者プラットフォームと測定モデルを開発する。
方法: 仮想患者, 調整可能なACGME対応能力プロファイルを持つ仮想学習者, 構造化されたKey-Featuresアイテムとの出会いを評価する複数の独立したAIレーダを用いたプラットフォームを構築した。
トランスクリプトをベイズHRM-SDTモデルを用いて解析し,評価を不確実性に基づく判断として扱い,学習能力,ケースパフォーマンス,レーダの挙動をMCMCで推定した。
結果: 非決定論的パイプラインにもかかわらず, モデルが学習者の能力のシミュレーションを回復し, 全ACGME領域にまたがる能力に有意な相関が認められた。
これは、能力によるケースの難易度を推定し、同一のモデル/プロンプトと異なる種を用いて、AIレーダ間で安定したレーダ検出(感度)と基準(重大/高次しきい値)を示した。
また、信頼に基づく検証のマイルストーンに結びついた、学習者とAIツールをデプロイするためのステージ化された"セーフティ・ブループリント"も提案します。
結論: 汎用仮想患者プラットフォームと原則化された心理測定モデルを組み合わせることで、堅牢で解釈可能で、一般化可能な能力推定が可能になり、人間の学習者と使われる前にAI支援評価の検証をサポートする。
関連論文リスト
- A Voice-Enabled Virtual Patient System for Interactive Training in Standardized Clinical Assessment [0.0]
大規模言語モデル(LLM)を利用した音声対応仮想患者シミュレーションシステムを提案する。
本研究は, 本システムの発展を概説し, 既定の臨床像に固執する仮想患者を創出する能力を検証した。
以上の結果から, LLMを用いた仮想患者シミュレーションは, 臨床医の教育に有効かつスケーラブルなツールであることが示唆された。
論文 参考訳(メタデータ) (2025-11-01T21:18:08Z) - How to Evaluate Medical AI [4.23552814358972]
アルゴリズム診断(RPAD, RRAD)の相対精度とリコールについて紹介する。
RPADとRADは、AIの出力を単一の参照ではなく複数の専門家の意見と比較する。
大規模な研究によると、DeepSeek-V3のようなトップパフォーマンスモデルは、専門家のコンセンサスに匹敵する一貫性を達成している。
論文 参考訳(メタデータ) (2025-09-15T14:01:22Z) - Automated Real-time Assessment of Intracranial Hemorrhage Detection AI Using an Ensembled Monitoring Model (EMM) [1.8767322781894276]
本稿では,複数の専門家レビューを用いた臨床コンセンサスプラクティスに触発されたEMM(Ensembled Monitoring Model)を紹介する。
EMMは内部AIコンポーネントや中間出力へのアクセスを必要とせずに独立して動作する。
EMMがAI生成予測の信頼度をうまく分類し、異なる行動を提案することを実証する。
論文 参考訳(メタデータ) (2025-05-16T22:50:42Z) - Which Client is Reliable?: A Reliable and Personalized Prompt-based Federated Learning for Medical Image Question Answering [51.26412822853409]
本稿では,医学的視覚的質問応答(VQA)モデルのための,パーソナライズド・フェデレーションド・ラーニング(pFL)手法を提案する。
提案手法では,学習可能なプロンプトをTransformerアーキテクチャに導入し,膨大な計算コストを伴わずに,多様な医療データセット上で効率的にトレーニングする。
論文 参考訳(メタデータ) (2024-10-23T00:31:17Z) - Simulated patient systems are intelligent when powered by large language model-based AI agents [32.73072809937573]
我々は,大規模言語モデルに基づくAIエージェントを用いた,インテリジェントシミュレートされた患者システムAIatientを開発した。
このシステムにはRetrieval Augmented Generationフレームワークが組み込まれており、複雑な推論のために6つのタスク固有のLLMベースのAIエージェントが使用されている。
シミュレーションの現実のために、このシステムはAIPatient KG (Knowledge Graph) も利用している。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。