論文の概要: Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals
- arxiv url: http://arxiv.org/abs/2201.07040v1
- Date: Tue, 18 Jan 2022 15:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:11:07.716754
- Title: Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals
- Title(参考訳): 人工知能開発を推進するベンチマークデータセットは医療専門家のニーズを捉えられなかった
- Authors: Kathrin Blagec, Jakob Kraiger, Wolfgang Fr\"uhwirt, Matthias Samwald
- Abstract要約: 臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。
450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
- 参考スコア(独自算出の注目度): 4.799783526620609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Publicly accessible benchmarks that allow for assessing and comparing model
performances are important drivers of progress in artificial intelligence (AI).
While recent advances in AI capabilities hold the potential to transform
medical practice by assisting and augmenting the cognitive processes of
healthcare professionals, the coverage of clinically relevant tasks by AI
benchmarks is largely unclear. Furthermore, there is a lack of systematized
meta-information that allows clinical AI researchers to quickly determine
accessibility, scope, content and other characteristics of datasets and
benchmark datasets relevant to the clinical domain.
To address these issues, we curated and released a comprehensive catalogue of
datasets and benchmarks pertaining to the broad domain of clinical and
biomedical natural language processing (NLP), based on a systematic review of
literature and online resources. A total of 450 NLP datasets were manually
systematized and annotated with rich metadata, such as targeted tasks, clinical
applicability, data types, performance metrics, accessibility and licensing
information, and availability of data splits. We then compared tasks covered by
AI benchmark datasets with relevant tasks that medical practitioners reported
as highly desirable targets for automation in a previous empirical study.
Our analysis indicates that AI benchmarks of direct clinical relevance are
scarce and fail to cover most work activities that clinicians want to see
addressed. In particular, tasks associated with routine documentation and
patient data administration workflows are not represented despite significant
associated workloads. Thus, currently available AI benchmarks are improperly
aligned with desired targets for AI automation in clinical settings, and novel
benchmarks should be created to fill these gaps.
- Abstract(参考訳): モデルパフォーマンスの評価と比較を可能にする公開可能なベンチマークは、人工知能(AI)の進歩の重要な要因である。
近年のAI能力の進歩は、医療専門家の認知プロセスを支援し、強化することで医療実践を変革する可能性を秘めているが、AIベンチマークによる臨床関連タスクのカバレッジはほとんど不明である。
さらに、システム化されたメタ情報がないため、臨床AI研究者は、臨床領域に関連するデータセットやベンチマークデータセットのアクセシビリティ、スコープ、コンテンツ、その他の特性を迅速に決定できる。
これらの問題に対処するため,文献とオンラインリソースの体系的レビューに基づいて,広範な臨床・生物医学自然言語処理分野(nlp)に関連するデータセットとベンチマークの包括的カタログを作成・公開した。
450のNLPデータセットを手動で体系化し、ターゲットタスク、臨床応用性、データタイプ、パフォーマンスメトリクス、アクセシビリティとライセンシング情報、データ分割の可用性など、豊富なメタデータで注釈付けした。
続いて私たちは、AIベンチマークデータセットでカバーされたタスクと、医療従事者が以前の実証研究で非常に望ましい自動化ターゲットとして報告した関連するタスクを比較した。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
特に、日常的なドキュメントや患者データ管理ワークフローに関連するタスクは、重要な関連するワークロードにもかかわらず表現されない。
したがって、現在利用可能なAIベンチマークは、臨床環境でAI自動化の望ましい目標と不適切に一致しており、これらのギャップを埋めるために新しいベンチマークを作成する必要がある。
関連論文リスト
- The METRIC-framework for assessing data quality for trustworthy AI in
medicine: a systematic review [0.0]
信頼できるAIの開発は特に医学において重要である。
ディープラーニング(DL)におけるデータ品質(トレーニング/テスト)の重要性に焦点を当てる。
本稿では,医療訓練データのための特化データ品質フレームワークであるMETRICフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-21T09:15:46Z) - Enabling Collaborative Clinical Diagnosis of Infectious Keratitis by
Integrating Expert Knowledge and Interpretable Data-driven Intelligence [28.144658552047975]
感染性角膜炎(IK)の診断における知識誘導診断モデル(KGDM)の性能,解釈可能性,臨床的有用性について検討した。
AIベースのバイオマーカーの診断確率比(DOR)は3.011から35.233の範囲で有効である。
コラボレーションの参加者は、人間とAIの両方を上回るパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-14T02:10:54Z) - Designing Interpretable ML System to Enhance Trustworthy AI in
Healthcare: A Systematic Review of the Last Decade to A Proposed Robust
Framework [0.49157446832511503]
本稿では、医療における解釈可能なML(IML)と説明可能なAI(XAI)のプロセスと課題についてレビューする。
本研究は,医療における堅牢な解釈可能性の重要性を実験的に確立することを目的とする。
論文 参考訳(メタデータ) (2023-11-18T12:29:18Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Explainable AI for clinical and remote health applications: a survey on
tabular and time series data [3.655021726150368]
XAIは、特に医療において、さまざまな研究領域やデータタイプに同じ関心を集めていない点に注意が必要だ。
本稿は,過去5年間の文献を概観し,生成した説明のタイプと,それらの関連性や品質を評価するための取り組みについて述べる。
論文 参考訳(メタデータ) (2022-09-14T10:01:29Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Automated Clinical Coding: What, Why, and Where We Are? [17.086212195006894]
クリニカルコーディングは、プロセスの効率と正確性を改善するために、自動化システムによってサポートされる可能性がある。
本研究は、臨床コーディングに適用されている現在のディープラーニングベースのアプローチと、実世界の実践における説明可能性と一貫性の必要性のギャップを明らかにする。
今後5年以内にコーディングをサポートするために、AIベースの自動化システムの開発とデプロイを達成するには、多くのことが必要です。
論文 参考訳(メタデータ) (2022-03-21T16:17:38Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。