論文の概要: Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems
- arxiv url: http://arxiv.org/abs/2403.07911v1
- Date: Tue, 27 Feb 2024 03:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 05:50:41.769742
- Title: Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems
- Title(参考訳): 医療システムにおける公正で有用で信頼性の高いAIモデルを評価するためのフレームワークFURM Ground
- Authors: Alison Callahan, Duncan McElfresh, Juan M. Banda, Gabrielle Bunney, Danton Char, Jonathan Chen, Conor K. Corbin, Debadutta Dash, Norman L. Downing, Srikar Nallan, Sneha S. Jain, Nikesh Kotecha, Jonathan Masterson, Michelle M. Mello, Keith Morse, Abby Pandya, Anurang Revri, Aditya Sharma, Christopher Sharp, Rahul Thapa, Michael Wornow, Alaa Youssef, Michael A. Pfeffer, Nigam H. Shah,
- Abstract要約: スタンフォードヘルスケアは、公正で有用で信頼性の高いAIモデル(FURM)を識別するメカニズムを開発した
評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。
我々の新しい貢献 - シミュレーションによる有用性推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - は、他の医療システムにおいて、候補AIソリューションの実用的な評価を行うことができる。
- 参考スコア(独自算出の注目度): 6.305990032645096
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The impact of using artificial intelligence (AI) to guide patient care or operational processes is an interplay of the AI model's output, the decision-making protocol based on that output, and the capacity of the stakeholders involved to take the necessary subsequent action. Estimating the effects of this interplay before deployment, and studying it in real time afterwards, are essential to bridge the chasm between AI model development and achievable benefit. To accomplish this, the Data Science team at Stanford Health Care has developed a mechanism to identify fair, useful and reliable AI models (FURM) by conducting an ethical review to identify potential value mismatches, simulations to estimate usefulness, financial projections to assess sustainability, as well as analyses to determine IT feasibility, design a deployment strategy, and recommend a prospective monitoring and evaluation plan. We report on FURM assessments done to evaluate six AI guided solutions for potential adoption, spanning clinical and operational settings, each with the potential to impact from several dozen to tens of thousands of patients each year. We describe the assessment process, summarize the six assessments, and share our framework to enable others to conduct similar assessments. Of the six solutions we assessed, two have moved into a planning and implementation phase. Our novel contributions - usefulness estimates by simulation, financial projections to quantify sustainability, and a process to do ethical assessments - as well as their underlying methods and open source tools, are available for other healthcare systems to conduct actionable evaluations of candidate AI solutions.
- Abstract(参考訳): 人工知能(AI)を用いて患者のケアや手術プロセスを導くことの影響は、AIモデルのアウトプットと、そのアウトプットに基づく意思決定プロトコルと、必要な後続のアクションを取るために必要なステークホルダーの能力の相互運用である。
このインタープレイの効果をデプロイ前に推定し、その後リアルタイムで研究することは、AIモデル開発と達成可能な利益の間のギャップを埋めるのに不可欠である。
これを達成するために、Stanford Health CareのData Scienceチームは、潜在的な価値のミスマッチを特定する倫理的レビュー、有用性を推定するシミュレーション、持続可能性を評価するための財務予測、ITの実現可能性を決定するための分析、デプロイメント戦略の設計、予測監視と評価計画の推奨によって、公正で有用なAIモデル(FURM)を識別するメカニズムを開発した。
臨床および手術環境にまたがる6つのAI誘導ソリューションを評価するためのFURMアセスメントについて報告する。
評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。
私たちが評価した6つのソリューションのうち、2つは計画と実装フェーズに移行しました。
我々の新しいコントリビューション - シミュレーションによる有用性の推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - と、その基盤となる方法とオープンソースツール - は、他の医療システムにおいて、候補AIソリューションの実行可能な評価を行うことができる。
関連論文リスト
- RAISE -- Radiology AI Safety, an End-to-end lifecycle approach [5.829180249228172]
放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらす。
モデルが安全性、有効性、有効性の最高基準を満たすことに注力すべきである。
ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。
論文 参考訳(メタデータ) (2023-11-24T15:59:14Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。