論文の概要: Recommendations on test datasets for evaluating AI solutions in
pathology
- arxiv url: http://arxiv.org/abs/2204.14226v1
- Date: Thu, 21 Apr 2022 14:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 03:14:21.277570
- Title: Recommendations on test datasets for evaluating AI solutions in
pathology
- Title(参考訳): 病理におけるAIソリューション評価のためのテストデータセットの勧告
- Authors: Andr\'e Homeyer, Christian Gei{\ss}ler, Lars Ole Schwen, Falk
Zakrzewski, Theodore Evans, Klaus Strohmenger, Max Westphal, Roman David
B\"ulow, Michaela Kargl, Aray Karjauv, Isidre Munn\'e-Bertran, Carl Orge
Retzlaff, Adri\`a Romero-L\'opez, Tomasz So{\l}tysi\'nski, Markus Plass, Rita
Carvalho, Peter Steinbach, Yu-Chia Lan, Nassim Bouteldja, David Haber, Mateo
Rojas-Carulla, Alireza Vafaei Sadr, Matthias Kraft, Daniel Kr\"uger, Rutger
Fick, Tobias Lang, Peter Boor, Heimo M\"uller, Peter Hufnagl, Norman Zerbe
- Abstract要約: デジタル組織像から自動的に情報を抽出するAIソリューションは、病理診断を改善するための大きな可能性を示している。
日常使用の前には, 予測性能を評価し, 規制承認を得ることが重要である。
商用AI開発者、病理学者、研究者を含む様々な利害関係者からなる委員会は、重要な側面について議論し、病理学におけるテストデータセットに関する広範な文献レビューを行った。
- 参考スコア(独自算出の注目度): 2.001521933638504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) solutions that automatically extract information
from digital histology images have shown great promise for improving
pathological diagnosis. Prior to routine use, it is important to evaluate their
predictive performance and obtain regulatory approval. This assessment requires
appropriate test datasets. However, compiling such datasets is challenging and
specific recommendations are missing.
A committee of various stakeholders, including commercial AI developers,
pathologists, and researchers, discussed key aspects and conducted extensive
literature reviews on test datasets in pathology. Here, we summarize the
results and derive general recommendations for the collection of test datasets.
We address several questions: Which and how many images are needed? How to
deal with low-prevalence subsets? How can potential bias be detected? How
should datasets be reported? What are the regulatory requirements in different
countries?
The recommendations are intended to help AI developers demonstrate the
utility of their products and to help regulatory agencies and end users verify
reported performance measures. Further research is needed to formulate criteria
for sufficiently representative test datasets so that AI solutions can operate
with less user intervention and better support diagnostic workflows in the
future.
- Abstract(参考訳): デジタル組織像から自動的に情報を抽出する人工知能(AI)ソリューションは、病理診断の改善に大いに期待されている。
日常使用の前には,予測性能を評価し,規制承認を得ることが重要である。
この評価には適切なテストデータセットが必要です。
しかし、このようなデータセットのコンパイルは困難であり、特定の推奨事項が欠けている。
商用AI開発者、病理学者、研究者を含む様々な利害関係者からなる委員会は、重要な側面について議論し、病理学におけるテストデータセットに関する広範な文献レビューを行った。
ここでは、結果を要約し、テストデータセットの収集に関する一般的な推奨事項を導出する。
どれぐらいのイメージが必要なのか?
低頻度サブセットを扱うには?
潜在的なバイアスはどのように検出できるのか?
データセットの報告方法は?
異なる国における規制要件は何ですか?
この推奨は、ai開発者が製品の実用性を示すのを助け、規制当局やエンドユーザが報告されたパフォーマンス対策を検証するのを助けることを目的としている。
さらに研究は、十分な代表的なテストデータセットの基準を定式化し、AIソリューションがユーザーの介入を減らし、将来診断ワークフローをよりサポートできるようにする必要がある。
関連論文リスト
- BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - Auditing for Human Expertise [13.740812888680614]
我々は、この問題を自然仮説テストとして適用できる統計的枠組みを開発する。
本稿では,専門家の予測が興味ある結果から統計的に独立しているかどうかを判定する簡単な手順を提案する。
我々のテストの拒絶は、人間の専門家が利用可能なデータに基づいてトレーニングされたアルゴリズムに価値を付加する可能性を示唆している。
論文 参考訳(メタデータ) (2023-06-02T16:15:24Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Weakly Supervised Anomaly Detection: A Survey [75.26180038443462]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。
弱教師付き異常検出法(WSAD)の総合的な調査を行った。
各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文 参考訳(メタデータ) (2023-02-09T10:27:21Z) - Non-Imaging Medical Data Synthesis for Trustworthy AI: A Comprehensive
Survey [6.277848092408045]
データ品質は、医療において信頼できるAIを開発する上で重要な要素である。
高品質なデータセットへのアクセスは、データ取得の技術的困難によって制限される。
医療データの大規模な共有は、厳格な倫理的制約によって妨げられている。
論文 参考訳(メタデータ) (2022-09-17T13:34:17Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals [4.799783526620609]
臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。
450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
論文 参考訳(メタデータ) (2022-01-18T15:05:28Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Peri-Diagnostic Decision Support Through Cost-Efficient Feature
Acquisition at Test-Time [37.160335232396406]
CADxのサブプロブレムは、取得段階を含む、周辺診断ワークフロー全体を通して医師を導くことである。
本稿では,入力層でのドロップアウトと,テスト時にトレーニングネットワークの統合勾配を動的に考慮し,特徴量の重要性を評価できる新しいアプローチを提案する。
その結果,提案手法は従来手法よりもコスト効率が高く,全体の精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-03-31T12:00:44Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。