論文の概要: SUDO: a framework for evaluating clinical artificial intelligence systems without ground-truth annotations
- arxiv url: http://arxiv.org/abs/2403.17011v1
- Date: Tue, 2 Jan 2024 18:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:44:33.697416
- Title: SUDO: a framework for evaluating clinical artificial intelligence systems without ground-truth annotations
- Title(参考訳): 土木アノテーションを使わずに臨床人工知能システムを評価するための枠組み
- Authors: Dani Kiyasseh, Aaron Cohen, Chengsheng Jiang, Nicholas Altieri,
- Abstract要約: 我々は,基幹アノテーションを使わずにAIシステムを評価するためのフレームワークであるSUDOを紹介する。
我々は,SUDOがモデル性能の信頼できるプロキシになりうることを示し,信頼できない予測を識別する。
- 参考スコア(独自算出の注目度): 3.7525007896336944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A clinical artificial intelligence (AI) system is often validated on a held-out set of data which it has not been exposed to before (e.g., data from a different hospital with a distinct electronic health record system). This evaluation process is meant to mimic the deployment of an AI system on data in the wild; those which are currently unseen by the system yet are expected to be encountered in a clinical setting. However, when data in the wild differ from the held-out set of data, a phenomenon referred to as distribution shift, and lack ground-truth annotations, it becomes unclear the extent to which AI-based findings can be trusted on data in the wild. Here, we introduce SUDO, a framework for evaluating AI systems without ground-truth annotations. SUDO assigns temporary labels to data points in the wild and directly uses them to train distinct models, with the highest performing model indicative of the most likely label. Through experiments with AI systems developed for dermatology images, histopathology patches, and clinical reports, we show that SUDO can be a reliable proxy for model performance and thus identify unreliable predictions. We also demonstrate that SUDO informs the selection of models and allows for the previously out-of-reach assessment of algorithmic bias for data in the wild without ground-truth annotations. The ability to triage unreliable predictions for further inspection and assess the algorithmic bias of AI systems can improve the integrity of research findings and contribute to the deployment of ethical AI systems in medicine.
- Abstract(参考訳): 臨床人工知能(AI)システムは、これまで公開されていないデータの保持されたセットで検証されることが多い(例えば、異なる病院の別の電子健康記録システムからのデータ)。
この評価プロセスは、野生のデータへのAIシステムの展開を模倣することを目的としている。
しかし、データ集合や分布シフトと呼ばれる現象、地味なアノテーションが欠如している場合、AIに基づく発見が野生のデータにどの程度信頼されるかははっきりしない。
本稿では,AIシステム評価フレームワークであるSUDOを紹介する。
SUDOは一時的なラベルを野生のデータポイントに割り当て、異なるモデルをトレーニングするために直接使用する。
皮膚科画像,病理組織パッチ,臨床報告のために開発されたAIシステムを用いた実験を通じて,SUDOがモデル性能の信頼性の高いプロキシとなり,信頼性の低い予測が可能であることを示す。
また、SUDOはモデルの選択を通知し、地上のアノテーションを使わずに、野生のデータに対するアルゴリズムバイアスの事前評価を可能にすることを実証した。
信頼できない予測をトリアージして、AIシステムのアルゴリズムバイアスを検査し評価することで、研究結果の整合性を改善し、医療における倫理的AIシステムの展開に寄与することができる。
関連論文リスト
- Refining Tuberculosis Detection in CXR Imaging: Addressing Bias in Deep Neural Networks via Interpretability [1.9936075659851882]
実験データから完全な分類精度を得ることができたとしても,深層学習モデルの信頼性は限られていると論じる。
大規模プロキシタスクでディープニューラルネットワークを事前トレーニングし、MOON(Mixed objective Optimization Network)を使用することで、モデルとエキスパート間の決定基盤の整合性を改善することができることを示す。
論文 参考訳(メタデータ) (2024-07-19T06:41:31Z) - Detecting algorithmic bias in medical-AI models using trees [7.939586935057782]
本稿では,医療AI意思決定支援システムにおけるアルゴリズムバイアスの領域を検出するための革新的な枠組みを提案する。
本手法は,医学・AIモデルにおける潜在的なバイアスを,特に敗血症予測の文脈で効果的に同定する。
論文 参考訳(メタデータ) (2023-12-05T18:47:34Z) - New Epochs in AI Supervision: Design and Implementation of an Autonomous
Radiology AI Monitoring System [5.50085484902146]
本稿では,放射線学AI分類モデルの性能を実際に監視するための新しい手法を提案する。
予測分散と時間安定性という2つの指標を提案し、AIのパフォーマンス変化のプリエンプティブアラートに使用する。
論文 参考訳(メタデータ) (2023-11-24T06:29:04Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Explainable AI for Malnutrition Risk Prediction from m-Health and
Clinical Data [3.093890460224435]
異種m-healthデータに基づく早期かつ説明可能な栄養失調リスク検出のための新しいAIフレームワークを提案する。
対象非依存および個人化予測を含む広範囲なモデル評価を行った。
また,グローバルモデル記述を抽出するベンチマークXAI法についても検討した。
論文 参考訳(メタデータ) (2023-05-31T08:07:35Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Detecting Spurious Correlations with Sanity Tests for Artificial
Intelligence Guided Radiology Systems [22.249702822013045]
放射線学におけるAIの展開における重要な要素は、開発システムの有効性と安全性への信頼を得ることである。
現在のゴールド標準アプローチは、一般化データセットのパフォーマンスの分析検証を行うことである。
間違った理由から,システムが開発データに対して良好に動作するかどうかを特定するための,一連の健全性テストについて述べる。
論文 参考訳(メタデータ) (2021-03-04T14:14:05Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。