論文の概要: From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring
- arxiv url: http://arxiv.org/abs/2603.09052v1
- Date: Tue, 10 Mar 2026 00:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.91571
- Title: From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring
- Title(参考訳): 遠隔患者モニタリングで信頼性の高い臨床トリアージを実現するAIエージェント
- Authors: Seunghwan Kim, Tiffany H. Kung, Heena Verma, Dilan Edirisinghe, Kaveh Sedehi, Johanna Alvarez, Diane Shilling, Audra Lisa Doyle, Ajit Chary, William Borden, Ming Jack Po,
- Abstract要約: 遠隔患者モニタリング(RPM)は膨大なデータを生成するが、データ量が臨床スタッフを圧倒したため、目覚ましい臨床試験(Tele-HF, BEAT-HF)は失敗した。
RPMバイタルのコンテキストトリアージにモデルコンテキストプロトコル(MCP)を用いた自律型AIエージェントSentinelを開発した。
- 参考スコア(独自算出の注目度): 2.0918370570198763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Remote patient monitoring (RPM) generates vast data, yet landmark trials (Tele-HF, BEAT-HF) failed because data volume overwhelmed clinical staff. While TIM-HF2 showed 24/7 physician-led monitoring reduces mortality by 30%, this model remains prohibitively expensive and unscalable. Methods: We developed Sentinel, an autonomous AI agent using Model Context Protocol (MCP) for contextual triage of RPM vitals via 21 clinical tools and multi-step reasoning. Evaluation included: (1) self-consistency (100 readings x 5 runs); (2) comparison against rule-based thresholds; and (3) validation against 6 clinicians (3 physicians, 3 NPs) using a connected matrix design. A leave-one-out (LOO) analysis compared the agent against individual clinicians; severe overtriage cases underwent independent physician adjudication. Results: Against a human majority-vote standard (N=467), the agent achieved 95.8% emergency sensitivity and 88.5% sensitivity for all actionable alerts (85.7% specificity). Four-level exact accuracy was 69.4% (quadratic-weighted kappa=0.778); 95.9% of classifications were within one severity level. In LOO analysis, the agent outperformed every clinician in emergency sensitivity (97.5% vs. 60.0% aggregate) and actionable sensitivity (90.9% vs. 69.5%). While disagreements skewed toward overtriage (22.5%), independent adjudication of severe gaps (>=2 levels) validated agent escalation in 88-94% of cases; consensus resolution validated 100%. The agent showed near-perfect self-consistency (kappa=0.850). Median cost was $0.34/triage. Conclusions: Sentinel triages RPM vitals with sensitivity exceeding individual clinicians. By automating systematic context synthesis, Sentinel addresses the core limitation of prior RPM trials, offering a scalable path toward the intensive monitoring shown to reduce mortality while maintaining a clinically defensible overtriage profile.
- Abstract(参考訳): 背景: 遠隔患者モニタリング(RPM)は膨大なデータを生成するが, データ量が臨床スタッフを圧倒したため, 目覚ましい臨床試験(Tele-HF, BEAT-HF)は失敗した。
TIM-HF2は24/7の医師主導のモニタリングで死亡率を30%低下させたが、このモデルは違法に高価で測定不能である。
方法: モデルコンテキストプロトコル(MCP)を用いた自律型AIエージェントSentinelを開発した。
1) 自己整合性(100読×5実行)、(2) 規則に基づく閾値との比較、(3) 連結マトリックス設計を用いた臨床医6名(医師3名, NP3名)に対する検証。
退院前 (LOO) 分析では, 個別臨床医に対する薬剤の比較を行った。
結果:ヒトの多数決投票基準(N=467)に対して、エージェントは95.8%の緊急感度と88.5%の感度(85.7%の特異性)を達成した。
4レベルの精度は69.4%(四段重み付きカッパ=0.778)で、95.9%の分類は重度レベルである。
LOO分析では、緊急感度 (97.5% vs. 60.0%) と実行可能な感度 (90.9% vs. 69.5%) で全ての臨床医より優れていた。
オーバートリアージ(22.5%)に対して意見の相違が生じたが、88~94%のケースにおいて、深刻なギャップ(>=2レベル)の独立的判断がエージェントのエスカレーションを証明し、コンセンサス解決は100%に検証された。
その結果, ほぼ完全な自己整合性(Kappa=0.850)を示した。
媒体コストは0.34ドル/トリアージであった。
結論:Sentinel triages RPM vitals with sensitivity than individual clinicians。
体系的な文脈合成を自動化することで、Sentinelは以前のRPM臨床試験の中核的な限界に対処し、臨床的に防御可能なオーバートリアージプロファイルを維持しながら、死亡率の低下を抑えるために、集中的な監視に向けたスケーラブルな経路を提供する。
関連論文リスト
- Externally Validated Longitudinal GRU Model for Visit-Level 180-Day Mortality Risk in Metastatic Castration-Resistant Prostate Cancer [0.5361389213879222]
転移性カストレーション耐性前立腺癌 (mCRPC) は予後不良と不均一な治療反応を有する高攻撃性疾患である。
我々は,2つのフェーズIIIコホートからの縦断データを用いて,訪問レベル180日間の死亡リスクモデルを開発し,検証した。
論文 参考訳(メタデータ) (2026-01-27T20:48:53Z) - AI-assisted workflow enables rapid, high-fidelity breast cancer clinical trial eligibility prescreening [4.008304844602351]
臨床テキストから自動検査を行うAIシステムMSK-MATCH(Memorial Sloan Kettering Multi-Agent Trial Coordination Hub)を開発した。
MSK-MATCHは、大規模な言語モデルと、キュレートされたオンコロジートライアル知識ベースと検索強化アーキテクチャを統合している。
MSK-MATCHは、6回の乳癌治験で731人の患者から88,518人の臨床記録を振り返って分析し、61.9%の患者を自動で解決し、38.1%の人的レビューを行った。
論文 参考訳(メタデータ) (2025-11-07T20:27:05Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Artificial Intelligence-Based Triaging of Cutaneous Melanocytic Lesions [0.8864540224289991]
患者数の増加とより包括的な診断の必要性により、病理学者は作業負荷の増大に直面している。
われわれは,全スライド画像に基づいて皮膚メラノサイト性病変をトリアージする人工知能(AI)モデルを開発した。
論文 参考訳(メタデータ) (2024-10-14T13:49:04Z) - Detection of subclinical atherosclerosis by image-based deep learning on chest x-ray [86.38767955626179]
460胸部X線で冠状動脈カルシウム(CAC)スコアを予測する深層学習アルゴリズムを開発した。
AICACモデルの診断精度は, 曲線下領域(AUC)で評価された。
論文 参考訳(メタデータ) (2024-03-27T16:56:14Z) - Quantifying Impairment and Disease Severity Using AI Models Trained on
Healthy Subjects [27.786240241494436]
Confidence-based chaRacterization of Anomalies (COBRA) スコアは、障害または疾患のある患者に提示された場合、これらのモデルの信頼性の低下を利用する。
脳卒中患者の上半身障害の現在の臨床的評価の鍵となる限界にCOBRAスコアを適用した。
論文 参考訳(メタデータ) (2023-11-21T18:45:52Z) - Weak labels and anatomical knowledge: making deep learning practical for
intracranial aneurysm detection in TOF-MRA [0.0]
我々は、過大な弱いラベルを用いてトレーニングされる、完全に自動化されたディープニューラルネットワークを開発する。
当社のネットワークは、社内データで平均77%の感度を達成し、患者1人当たりの平均False Positive(FP)レートは0.72です。
論文 参考訳(メタデータ) (2021-03-10T16:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。