論文の概要: End-to-End Evaluation and Governance of an EHR-Embedded AI Agent for Clinicians
- arxiv url: http://arxiv.org/abs/2604.27309v1
- Date: Thu, 30 Apr 2026 01:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.869913
- Title: End-to-End Evaluation and Governance of an EHR-Embedded AI Agent for Clinicians
- Title(参考訳): EHRを組み込んだ臨床用AIエージェントのエンド・ツー・エンド評価とガバナンス
- Authors: Aaryan Shah, Andrew Hines, Alexia Downs, Denis Bajet, Paulius Mui, Fabiano Araujo, Laura Offutt, Aida Rutledge, Elizabeth Jimenez,
- Abstract要約: このフレームワークは、バリデーション、ライブデプロイメントフィードバック、技術的パフォーマンス監視、コストトラッキングを統合している。
20人の臨床医が823件に1,646件の試薬を提出した。
結果は、デプロイされた臨床AIの継続的なマルチチャネルガバナンスは達成可能かつ効果的であることを示している。
- 参考スコア(独自算出の注目度): 3.018184429993625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical AI systems require not just point-in-time evaluation but continuous governance: the ongoing practice of monitoring, evaluating, iterating, and re-evaluating performance throughout deployment. We present an end-to-end framework of governance that integrates rubric validation, live deployment feedback, technical performance monitoring, and cost tracking, with controlled experimentation gating system changes before deployment. Applied to Hyperscribe, an EHR-embedded agent that converts ambient audio into structured chart updates, twenty clinicians authored 1,646 validated rubrics across 823 cases. Seven Hyperscribe versions were evaluated through controlled experiments, with median scores improving from 84% to 95%. Analysis of 107 live feedback entries over three months showed feedback composition shifting from 79% error reports and 14% positive observations to 30% errors and 45% positive observations as engineering interventions resolved failures. Median processing time per audio segment was 8.1 seconds with a 99.6% effective completion rate after retry mechanisms absorbed transient model errors. These results demonstrate that continuous, multi-channel governance of deployed clinical AI is both achievable and effective.
- Abstract(参考訳): 臨床AIシステムは、ポイントインタイムの評価だけでなく、継続的ガバナンスも必要である。
本稿では,ルーブリック検証,ライブデプロイメントフィードバック,技術的パフォーマンス監視,コストトラッキングを統合したエンドツーエンドのガバナンスフレームワークを提案する。
環境音を構造化されたチャートに変換するEHR組み込みエージェントであるHyperscribeに応用すると、20人の臨床医が823件で1,646件の検証済みルーリックを作成した。
7つのHyperscribeバージョンをコントロール実験により評価し,中央値が84%から95%に改善した。
3ヶ月にわたる107件のライブフィードバックエントリの分析では、フィードバック構成が79%のエラーレポートと14%のポジティブな観察から30%のエラー、45%のポジティブな観察へとシフトし、エンジニアリングの介入が失敗を解決した。
音声セグメントあたりのメディア処理時間は8.1秒であり、再試行機構が過渡的モデル誤差を吸収した後は99.6%の有効完了率であった。
これらの結果は、デプロイされた臨床AIの継続的なマルチチャネルガバナンスは達成可能かつ効果的であることを示している。
関連論文リスト
- A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation [4.321699303483216]
本稿では, ストリーム音声認識, 句読取復元, ステートフル抽出, 信念安定化, 客観的検索, 行動計画, リプレイ可能なレポート生成を中心に, エンドツーエンドの能動型EMRアシスタントを提案する。
全システムは0.84のステートイベントF1、0.87のリコール@5、83.3%のカバー、81.4%の構造化、完全性、80.0%のリスクリコールに到達している。
論文 参考訳(メタデータ) (2026-03-18T05:54:01Z) - Optimization Instability in Autonomous Agentic Workflows for Clinical Symptom Detection [3.0950658457067433]
自律的改善の継続がパラドックス的に分類器の性能を低下させる現象について検討する。
検証感度はイテレーション毎に1.0から0.0の間で変動し,重度はクラス有病率に逆比例することがわかった。
セレクターエージェントの監視により、システムは専門家による脳霧検出のレキシコンを331%(F1)、胸痛を7%改善した。
論文 参考訳(メタデータ) (2026-02-17T21:45:20Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - AI, Metacognition, and the Verification Bottleneck: A Three-Wave Longitudinal Study of Human Problem-Solving [0.0]
このパイロット研究は、AIが学術的な環境での6ヶ月にわたる問題解決にどのように影響するかを追跡した。
結果は、主にアーリーアドプター、学術関連集団に一般化される。
論文 参考訳(メタデータ) (2026-01-21T15:49:04Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Real-world Deployment and Evaluation of PErioperative AI CHatbot (PEACH) -- a Large Language Model Chatbot for Perioperative Medicine [2.0497272891338536]
大規模言語モデル(LLM)は、特に複雑なドメイン固有のタスクのために、医療において強力なツールとして登場しています。
本研究では,PEACH(PEACH:PErioperative AI atbot)の開発と評価について述べる。
論文 参考訳(メタデータ) (2024-12-24T02:14:13Z) - Autonomous Evaluation and Refinement of Digital Agents [57.12281122337407]
ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。
我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。
論文 参考訳(メタデータ) (2024-04-09T17:25:47Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。