Fugu-MT 論文翻訳(概要): Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems

論文の概要: Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems

arxiv url: http://arxiv.org/abs/2403.07911v1
Date: Tue, 27 Feb 2024 03:33:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 05:50:41.769742
Title: Standing on FURM ground -- A framework for evaluating Fair, Useful, and Reliable AI Models in healthcare systems
Title（参考訳）: 医療システムにおける公正で有用で信頼性の高いAIモデルを評価するためのフレームワークFURM Ground
Authors: Alison Callahan, Duncan McElfresh, Juan M. Banda, Gabrielle Bunney, Danton Char, Jonathan Chen, Conor K. Corbin, Debadutta Dash, Norman L. Downing, Srikar Nallan, Sneha S. Jain, Nikesh Kotecha, Jonathan Masterson, Michelle M. Mello, Keith Morse, Abby Pandya, Anurang Revri, Aditya Sharma, Christopher Sharp, Rahul Thapa, Michael Wornow, Alaa Youssef, Michael A. Pfeffer, Nigam H. Shah,
Abstract要約: スタンフォードヘルスケアは、公正で有用で信頼性の高いAIモデル(FURM)を識別するメカニズムを開発した評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。我々の新しい貢献 - シミュレーションによる有用性推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - は、他の医療システムにおいて、候補AIソリューションの実用的な評価を行うことができる。
参考スコア（独自算出の注目度）: 6.305990032645096
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The impact of using artificial intelligence (AI) to guide patient care or operational processes is an interplay of the AI model's output, the decision-making protocol based on that output, and the capacity of the stakeholders involved to take the necessary subsequent action. Estimating the effects of this interplay before deployment, and studying it in real time afterwards, are essential to bridge the chasm between AI model development and achievable benefit. To accomplish this, the Data Science team at Stanford Health Care has developed a mechanism to identify fair, useful and reliable AI models (FURM) by conducting an ethical review to identify potential value mismatches, simulations to estimate usefulness, financial projections to assess sustainability, as well as analyses to determine IT feasibility, design a deployment strategy, and recommend a prospective monitoring and evaluation plan. We report on FURM assessments done to evaluate six AI guided solutions for potential adoption, spanning clinical and operational settings, each with the potential to impact from several dozen to tens of thousands of patients each year. We describe the assessment process, summarize the six assessments, and share our framework to enable others to conduct similar assessments. Of the six solutions we assessed, two have moved into a planning and implementation phase. Our novel contributions - usefulness estimates by simulation, financial projections to quantify sustainability, and a process to do ethical assessments - as well as their underlying methods and open source tools, are available for other healthcare systems to conduct actionable evaluations of candidate AI solutions.
Abstract（参考訳）: 人工知能(AI)を用いて患者のケアや手術プロセスを導くことの影響は、AIモデルのアウトプットと、そのアウトプットに基づく意思決定プロトコルと、必要な後続のアクションを取るために必要なステークホルダーの能力の相互運用である。このインタープレイの効果をデプロイ前に推定し、その後リアルタイムで研究することは、AIモデル開発と達成可能な利益の間のギャップを埋めるのに不可欠である。これを達成するために、Stanford Health CareのData Scienceチームは、潜在的な価値のミスマッチを特定する倫理的レビュー、有用性を推定するシミュレーション、持続可能性を評価するための財務予測、ITの実現可能性を決定するための分析、デプロイメント戦略の設計、予測監視と評価計画の推奨によって、公正で有用なAIモデル(FURM)を識別するメカニズムを開発した。臨床および手術環境にまたがる6つのAI誘導ソリューションを評価するためのFURMアセスメントについて報告する。評価プロセスを説明し、6つのアセスメントを要約し、同様のアセスメントを行うためのフレームワークを共有します。私たちが評価した6つのソリューションのうち、2つは計画と実装フェーズに移行しました。我々の新しいコントリビューション - シミュレーションによる有用性の推定、持続可能性の定量化のための財務予測、倫理的評価を行うプロセス - と、その基盤となる方法とオープンソースツール - は、他の医療システムにおいて、候補AIソリューションの実行可能な評価を行うことができる。

関連論文リスト

Responsible Evaluation of AI for Mental Health [72.85175110624736]
メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
論文参考訳（メタデータ） (2026-01-20T12:55:10Z)
Developing and Maintaining an Open-Source Repository of AI Evaluations: Challenges and Insights [44.99833362998488]
本稿では,70以上のコミュニティに分散したAI評価のオープンソースリポジトリである$_evals$の8ヶ月間の実践的洞察を紹介する。 AI評価の実装とメンテナンス、ソリューション開発における重要な課題を特定します。
論文参考訳（メタデータ） (2025-07-09T14:30:45Z)
Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文参考訳（メタデータ） (2024-09-27T06:31:03Z)
Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。 HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文参考訳（メタデータ） (2024-07-09T12:52:22Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)
Opportunities of a Machine Learning-based Decision Support System for Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文参考訳（メタデータ） (2020-02-27T17:04:07Z)
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文参考訳（メタデータ） (2020-02-10T00:26:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。