論文の概要: Simulated patient systems are intelligent when powered by large language model-based AI agents
- arxiv url: http://arxiv.org/abs/2409.18924v3
- Date: Tue, 29 Jul 2025 06:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 19:17:25.892197
- Title: Simulated patient systems are intelligent when powered by large language model-based AI agents
- Title(参考訳): シミュレーションされた患者システムは、大規模言語モデルに基づくAIエージェントによって駆動される
- Authors: Huizi Yu, Jiayan Zhou, Lingyao Li, Shan Chen, Jack Gallifant, Anye Shi, Xiang Li, Jingxian He, Wenyue Hua, Mingyu Jin, Guang Chen, Yang Zhou, Zhao Li, Trisha Gupte, Ming-Li Chen, Zahra Azizi, Yongfeng Zhang, Yanqiu Xing, Themistocles L. Danielle S. Bitterman, Themistocles L. Assimes, Xin Ma, Lin Lu, Lizhou Fan,
- Abstract要約: 我々は,大規模言語モデルに基づくAIエージェントを用いた,インテリジェントシミュレートされた患者システムAIatientを開発した。
このシステムにはRetrieval Augmented Generationフレームワークが組み込まれており、複雑な推論のために6つのタスク固有のLLMベースのAIエージェントが使用されている。
シミュレーションの現実のために、このシステムはAIPatient KG (Knowledge Graph) も利用している。
- 参考スコア(独自算出の注目度): 32.73072809937573
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Simulated patient systems play an important role in modern medical education and research, providing safe, integrative medical training environments and supporting clinical decision-making simulations. We developed AIPatient, an intelligent simulated patient system powered by large language model-based AI agents. The system incorporates the Retrieval Augmented Generation (RAG) framework, powered by six task-specific LLM-based AI agents for complex reasoning. For simulation reality, the system is also powered by the AIPatient KG (Knowledge Graph), built with de-identified real patient data from the Medical Information Mart for Intensive Care (MIMIC)-III database. Primary outcomes showcase the system's intelligence, including the system's accuracy in Electronic Record (EHR)-based medical Question Answering (QA), readability, robustness, and stability. The system achieved a QA accuracy of 94.15% when all six AI agents present, surpassing benchmarks with partial or no agent integration. Its knowledgebase demonstrated high validity (F1 score=0.89). Readability scores showed median Flesch Reading Ease at 77.23 and median Flesch Kincaid Grade at 5.6, indicating accessibility to all medical professionals. Robustness and stability were confirmed with non-significant variance (ANOVA F-value=0.6126, p > 0.1; F-value=0.782, p > 0.1). A user study with medical students further demonstrated that AIPatient offers high fidelity, strong usability, and effective educational value, performing comparably or better than human-simulated patients in medical history-taking scenarios. The promising intelligence of the AIPatient system highlights its potential to support a wide range of applications, including medical education, model evaluation, and system integration.
- Abstract(参考訳): シミュレーション患者システムは、近代医療教育と研究において重要な役割を担い、安全で統合的な医療訓練環境を提供し、臨床意思決定シミュレーションをサポートする。
我々は,大規模言語モデルに基づくAIエージェントを用いた,インテリジェントシミュレートされた患者システムAIatientを開発した。
このシステムは、複雑な推論のために6つのタスク固有のLLMベースのAIエージェントによって駆動されるRetrieval Augmented Generation (RAG)フレームワークを組み込んでいる。
AIPatient KG (Knowledge Graph)は、MIMIC-IIIデータベースから特定されていない実際の患者データによって構築されている。
主な成果は、電子記録(EHR)に基づく医療質問応答(QA)におけるシステムの正確性、可読性、堅牢性、安定性など、システムの知性を示す。
このシステムは6人のAIエージェントが揃ったときのQA精度94.15%を達成し、部分的または非エージェント統合のベンチマークを上回った。
その知識ベースは高い妥当性を示した(F1 score=0.89)。
可読性スコアは、Flesch Reading Easeが77.23で、Flesch Kincaid Gradeが5.6で、すべての医療従事者へのアクセシビリティを示している。
ANOVA F-value=0.6126, p > 0.1; F-value=0.782, p > 0.1。
医学生とのユーザスタディにより,AIPatientは,医療史的シナリオにおけるヒトシミュレーション患者よりも,高い忠実度,強力なユーザビリティ,効果的な教育価値を提供することが示された。
AIPatient Systemの有望なインテリジェンスは、医療教育、モデル評価、システム統合など、幅広い応用をサポートする可能性を強調している。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - The Impact of Foundational Models on Patient-Centric e-Health Systems [2.2667044928324747]
我々は116の患者中心医療アプリケーションにおけるAI機能統合の統合と成熟度について検討する。
私たちの結果は、86.21%以上のアプリケーションがAI統合の初期段階に留まっており、高度なAI統合を示すのは13.79%であることを示している。
論文 参考訳(メタデータ) (2025-07-29T14:56:01Z) - Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - Foundation Model of Electronic Medical Records for Adaptive Risk Estimation [6.248030496243407]
ETHOSは幅広いアプリケーションを開発するための多用途フレームワークである。
ARESは、臨床が定義した臨界事象に対するダイナミックでパーソナライズされたリスク確率を計算するためにETHOSを使用する。
ARESはパーソナライズされた説明可能性モジュールも備えており、リスク見積に影響を与える重要な臨床要因を強調している。
論文 参考訳(メタデータ) (2025-02-10T03:22:39Z) - Leveraging AI for Automatic Classification of PCOS Using Ultrasound Imaging [0.0]
AUTO-PCOS分類チャレンジは、多嚢胞性卵巣症候群(PCOS)の同定における人工知能(AI)の診断能力の向上を目指す
本稿では,InceptionV3アーキテクチャを用いたトランスファーラーニングを利用した堅牢なAIパイプライン構築手法について概説する。
論文 参考訳(メタデータ) (2024-12-30T11:56:11Z) - A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI [0.0]
本研究では、健康AIシステムを評価するためのスケーラブルなベンチマーク手法を提案する。
提案手法では,14の専門分野に400の検証済み臨床ヴィグネットを用いて,現実的な臨床行為をシミュレートするためにAIを利用した患者アクターを用いた。
8月は81.8%(327/400件)の診断精度、85.0%(340/400件)のトップ2の診断精度を達成し、従来の症状チェッカーを上回った。
論文 参考訳(メタデータ) (2024-12-17T05:02:33Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - Optimizing Mortality Prediction for ICU Heart Failure Patients: Leveraging XGBoost and Advanced Machine Learning with the MIMIC-III Database [1.5186937600119894]
心臓不全は世界中の何百万人もの人々に影響を与え、生活の質を著しく低下させ、高い死亡率をもたらす。
広範な研究にもかかわらず、ICU患者の心不全と死亡率の関係は、完全には理解されていない。
本研究は、ICD-9コードを用いて、MIMIC-IIIデータベースから18歳以上の1,177人のデータを解析した。
論文 参考訳(メタデータ) (2024-09-03T07:57:08Z) - Enhanced Prediction of Ventilator-Associated Pneumonia in Patients with Traumatic Brain Injury Using Advanced Machine Learning Techniques [0.0]
外傷性脳損傷(TBI)患者の呼吸器関連肺炎(VAP)は重大な死亡リスクをもたらす。
TBI患者のVAPのタイムリーな検出と予後は、患者の予後を改善し、医療資源の負担を軽減するために重要である。
我々はMIMIC-IIIデータベースを用いて6つの機械学習モデルを実装した。
論文 参考訳(メタデータ) (2024-08-02T09:44:18Z) - Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。
このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。
適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文 参考訳(メタデータ) (2024-04-06T15:50:19Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - The Potential of Wearable Sensors for Assessing Patient Acuity in
Intensive Care Unit (ICU) [12.359907390320453]
エクイティアセスメントは、タイムリーな介入と公平なリソース割り当てを提供するために、重要なケア設定において不可欠である。
従来のAcuityスコアには、ICUの回復や劣化を示す、患者のモビリティレベルなどの詳細な情報が含まれていない。
本研究では,手首の加速度計から収集したモビリティデータとEHRから得られた臨床データとを統合してAIによる明度評価スコアを作成することによる影響について検討した。
論文 参考訳(メタデータ) (2023-11-03T21:52:05Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z) - EVA: Generating Longitudinal Electronic Health Records Using Conditional
Variational Autoencoders [34.22731849545798]
離散的な EHR の出会いと出会いの特徴を合成するための EHR Variational Autoencoder (EVA) を提案する。
EVAは現実的なシーケンスを生成でき、患者間の個人差を考慮し、特定の疾患条件で条件付けできる。
250,000人以上の患者を含む大規模な現実世界のEHRリポジトリの方法の有用性を評価します。
論文 参考訳(メタデータ) (2020-12-18T02:37:49Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。