論文の概要: VeriSim: A Configurable Framework for Evaluating Medical AI Under Realistic Patient Noise
- arxiv url: http://arxiv.org/abs/2604.10441v1
- Date: Sun, 12 Apr 2026 03:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.018312
- Title: VeriSim: A Configurable Framework for Evaluating Medical AI Under Realistic Patient Noise
- Title(参考訳): VeriSim: リアルな患者騒音下で医療AIを評価するための構成可能なフレームワーク
- Authors: Sina Mansouri, Mohit Marvania, Vibhavari Ashok Shihorkar, Han Ngoc Tran, Kazhal Shafiei, Mehrdad Fazli, Yikuan Li, Ziwei Zhu,
- Abstract要約: 真理を保存する患者シミュレーションフレームワークであるVeriSimを紹介する。
本フレームワークは,患者の反応にコントロール可能な,臨床的に根拠のあるノイズを注入する。
我々の研究結果は、現在の医療AIにおけるSim-to-Realギャップを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 2.997608017642323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical large language models (LLMs) achieve impressive performance on standardized benchmarks, yet these evaluations fail to capture the complexity of real clinical encounters where patients exhibit memory gaps, limited health literacy, anxiety, and other communication barriers. We introduce VeriSim, a truth-preserving patient simulation framework that injects controllable, clinically evidence-grounded noise into patient responses while maintaining strict adherence to medical ground truth through a hybrid UMLS-LLM verification mechanism. Our framework operationalizes six noise dimensions derived from peer-reviewed medical communication literature, capturing authentic clinical phenomena such as patient recall limitations, health literacy barriers, and stigma-driven non-disclosure. Experiments across seven open-weight LLMs reveal that all models degrade significantly under realistic patient noise, with diagnostic accuracy dropping 15-25% and conversation length increasing 34-55%. Notably, smaller models (7B) show 40% greater degradation than larger models (70B+), while medical fine-tuning on standard corpora provides limited robustness benefits against patient communication noise. Evaluation by board-certified clinicians demonstrates high-quality simulation with strong inter-annotator agreement (kappa > 0.80), while LLM-as-a-Judge serves as a validated auxiliary evaluator achieving comparable reliability for scalable assessment. Our results highlight a critical Sim-to-Real gap in current medical AI. We release VeriSim as an open-source noise-injection framework, establishing a rigorous testbed for evaluating clinical robustness.
- Abstract(参考訳): 医学大言語モデル(LLMs)は、標準化されたベンチマークで印象的なパフォーマンスを達成するが、これらの評価は、患者が記憶のギャップ、限られた健康リテラシー、不安、その他のコミュニケーション障壁を示す実際の臨床経験の複雑さを捉えることに失敗する。
VeriSimは,医療現場の真実への厳密な固執を維持しつつ,制御可能な臨床的根拠に基づくノイズを患者応答に注入する患者シミュレーションフレームワークである。
本フレームワークは,患者のリコール制限,健康リテラシー障壁,スティグマ駆動による非開示などの臨床現象を抽出し,ピアレビュー医療コミュニケーション文献から派生した6つのノイズ次元を運用する。
7つのオープンウェイトLCM実験により、全てのモデルが現実的な患者ノイズの下で著しく劣化し、診断精度は15~25%低下し、会話の長さは34~55%増加した。
特に、小型モデル(7B)は、より大きなモデル(70B+)よりも40%の劣化率を示し、標準的なコーパスの微調整は、患者のコミュニケーションノイズに対して限られた堅牢性をもたらす。
LLM-as-a-Judgeは、スケーラブルな評価に匹敵する信頼性を達成するための、検証済み補助評価器として機能する一方、取締役会認定医による評価は、強力なアノテーション間合意(Kappa > 0.80)による高品質なシミュレーションを示す。
我々の研究結果は、現在の医療AIにおけるSim-to-Realギャップを浮き彫りにしている。
我々はVeriSimをオープンソースのノイズ注入フレームワークとしてリリースし、臨床的堅牢性を評価するための厳密なテストベッドを構築した。
関連論文リスト
- Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue [3.468314243424983]
ASR(Automatic Speech Recognition)は、臨床対話においてますます普及している。
標準評価は依然としてエラーエラー率(WER)に大きく依存している。
本稿では、WERや他の一般的な指標が転写誤りの臨床的影響と相関するかどうかを基準として検討する。
論文 参考訳(メタデータ) (2025-11-20T16:59:20Z) - A Voice-Enabled Virtual Patient System for Interactive Training in Standardized Clinical Assessment [0.0]
大規模言語モデル(LLM)を利用した音声対応仮想患者シミュレーションシステムを提案する。
本研究は, 本システムの発展を概説し, 既定の臨床像に固執する仮想患者を創出する能力を検証した。
以上の結果から, LLMを用いた仮想患者シミュレーションは, 臨床医の教育に有効かつスケーラブルなツールであることが示唆された。
論文 参考訳(メタデータ) (2025-11-01T21:18:08Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - TrialMatchAI: An End-to-End AI-powered Clinical Trial Recommendation System to Streamline Patient-to-Trial Matching [0.0]
本稿では,患者間マッチングを自動化するAIを利用したレコメンデーションシステムTrialMatchAIを提案する。
微調整されたオープンソースの大規模言語モデルに基づいて構築されたTrialMatchAIは、透明性を確保し、軽量なデプロイメントフットプリントを維持する。
現実のバリデーションでは、腫瘍学患者の92%が、少なくとも1つの関連するトライアルを、トップ20のレコメンデーションで回収した。
論文 参考訳(メタデータ) (2025-05-13T12:39:06Z) - Simulated patient systems are intelligent when powered by large language model-based AI agents [32.73072809937573]
我々は,大規模言語モデルに基づくAIエージェントを用いた,インテリジェントシミュレートされた患者システムAIatientを開発した。
このシステムにはRetrieval Augmented Generationフレームワークが組み込まれており、複雑な推論のために6つのタスク固有のLLMベースのAIエージェントが使用されている。
シミュレーションの現実のために、このシステムはAIPatient KG (Knowledge Graph) も利用している。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。