論文の概要: Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals
- arxiv url: http://arxiv.org/abs/2201.07040v1
- Date: Tue, 18 Jan 2022 15:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:11:07.716754
- Title: Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals
- Title(参考訳): 人工知能開発を推進するベンチマークデータセットは医療専門家のニーズを捉えられなかった
- Authors: Kathrin Blagec, Jakob Kraiger, Wolfgang Fr\"uhwirt, Matthias Samwald
- Abstract要約: 臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。
450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
- 参考スコア(独自算出の注目度): 4.799783526620609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Publicly accessible benchmarks that allow for assessing and comparing model
performances are important drivers of progress in artificial intelligence (AI).
While recent advances in AI capabilities hold the potential to transform
medical practice by assisting and augmenting the cognitive processes of
healthcare professionals, the coverage of clinically relevant tasks by AI
benchmarks is largely unclear. Furthermore, there is a lack of systematized
meta-information that allows clinical AI researchers to quickly determine
accessibility, scope, content and other characteristics of datasets and
benchmark datasets relevant to the clinical domain.
To address these issues, we curated and released a comprehensive catalogue of
datasets and benchmarks pertaining to the broad domain of clinical and
biomedical natural language processing (NLP), based on a systematic review of
literature and online resources. A total of 450 NLP datasets were manually
systematized and annotated with rich metadata, such as targeted tasks, clinical
applicability, data types, performance metrics, accessibility and licensing
information, and availability of data splits. We then compared tasks covered by
AI benchmark datasets with relevant tasks that medical practitioners reported
as highly desirable targets for automation in a previous empirical study.
Our analysis indicates that AI benchmarks of direct clinical relevance are
scarce and fail to cover most work activities that clinicians want to see
addressed. In particular, tasks associated with routine documentation and
patient data administration workflows are not represented despite significant
associated workloads. Thus, currently available AI benchmarks are improperly
aligned with desired targets for AI automation in clinical settings, and novel
benchmarks should be created to fill these gaps.
- Abstract(参考訳): モデルパフォーマンスの評価と比較を可能にする公開可能なベンチマークは、人工知能(AI)の進歩の重要な要因である。
近年のAI能力の進歩は、医療専門家の認知プロセスを支援し、強化することで医療実践を変革する可能性を秘めているが、AIベンチマークによる臨床関連タスクのカバレッジはほとんど不明である。
さらに、システム化されたメタ情報がないため、臨床AI研究者は、臨床領域に関連するデータセットやベンチマークデータセットのアクセシビリティ、スコープ、コンテンツ、その他の特性を迅速に決定できる。
これらの問題に対処するため,文献とオンラインリソースの体系的レビューに基づいて,広範な臨床・生物医学自然言語処理分野(nlp)に関連するデータセットとベンチマークの包括的カタログを作成・公開した。
450のNLPデータセットを手動で体系化し、ターゲットタスク、臨床応用性、データタイプ、パフォーマンスメトリクス、アクセシビリティとライセンシング情報、データ分割の可用性など、豊富なメタデータで注釈付けした。
続いて私たちは、AIベンチマークデータセットでカバーされたタスクと、医療従事者が以前の実証研究で非常に望ましい自動化ターゲットとして報告した関連するタスクを比較した。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
特に、日常的なドキュメントや患者データ管理ワークフローに関連するタスクは、重要な関連するワークロードにもかかわらず表現されない。
したがって、現在利用可能なAIベンチマークは、臨床環境でAI自動化の望ましい目標と不適切に一致しており、これらのギャップを埋めるために新しいベンチマークを作成する必要がある。
関連論文リスト
- Large Language Model Benchmarks in Medical Tasks [11.196196955468992]
本稿では,医療用大規模言語モデル(LLM)タスクに使用される様々なベンチマークデータセットについて調査する。
調査では、データセットをモダリティで分類し、その重要性、データ構造、LLMの開発への影響について論じている。
この論文は、言語多様性、構造化オミクスデータ、および合成に対する革新的なアプローチを含むデータセットの必要性を強調している。
論文 参考訳(メタデータ) (2024-10-28T11:07:33Z) - Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI [0.0]
本研究は、医療データの標準化など、特定の課題に対処するため、大規模言語モデルの採用を念頭においている。
この結果から,大規模言語モデルを用いることで手作業によるデータキュレーションの必要性が著しく低下することが示唆された。
提案手法は、医療におけるAIの統合を迅速化し、患者のケアの質を向上させるとともに、AIのためのデータ作成に必要な時間と資金を最小化する。
論文 参考訳(メタデータ) (2024-08-16T20:51:21Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - ACR: A Benchmark for Automatic Cohort Retrieval [1.3547712404175771]
現在のコホート検索手法は、手作業によるキュレーションと組み合わせた構造化データの自動クエリに依存している。
大規模言語モデル(LLM)と情報検索(IR)の最近の進歩は、これらのシステムに革命をもたらす有望な道を提供する。
本稿では,新しいタスクであるAutomatic Cohort Retrieval (ACR)を導入し,LLMと商用のドメイン固有のニューロシンボリックアプローチの性能を評価する。
論文 参考訳(メタデータ) (2024-06-20T23:04:06Z) - Challenges for Responsible AI Design and Workflow Integration in Healthcare: A Case Study of Automatic Feeding Tube Qualification in Radiology [35.284458448940796]
ナトリウムガスチューブ(NGT)は、鼻から胃に挿入されたチューブを供給し、栄養や薬品を供給している。
近年のAI開発は、チェストX線画像からNGT配置を堅牢に検出する可能性を示している。
本稿では,この問題に対する人間中心のアプローチを提案するとともに,コンテキスト調査および15の臨床ステークホルダとの詳細なインタビューの結果から得られた知見について述べる。
論文 参考訳(メタデータ) (2024-05-08T14:16:22Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Explainable AI for clinical and remote health applications: a survey on
tabular and time series data [3.655021726150368]
XAIは、特に医療において、さまざまな研究領域やデータタイプに同じ関心を集めていない点に注意が必要だ。
本稿は,過去5年間の文献を概観し,生成した説明のタイプと,それらの関連性や品質を評価するための取り組みについて述べる。
論文 参考訳(メタデータ) (2022-09-14T10:01:29Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。