Fugu-MT 論文翻訳(概要): Benchmark datasets driving artificial intelligence development fail to capture the needs of medical professionals

論文の概要: Benchmark datasets driving artificial intelligence development fail to capture the needs of medical professionals

arxiv url: http://arxiv.org/abs/2201.07040v1
Date: Tue, 18 Jan 2022 15:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-19 16:11:07.716754
Title: Benchmark datasets driving artificial intelligence development fail to capture the needs of medical professionals
Title（参考訳）: 人工知能開発を推進するベンチマークデータセットは医療専門家のニーズを捉えられなかった
Authors: Kathrin Blagec, Jakob Kraiger, Wolfgang Fr\"uhwirt, Matthias Samwald
Abstract要約: 臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。 450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
参考スコア（独自算出の注目度）: 4.799783526620609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Publicly accessible benchmarks that allow for assessing and comparing model performances are important drivers of progress in artificial intelligence (AI). While recent advances in AI capabilities hold the potential to transform medical practice by assisting and augmenting the cognitive processes of healthcare professionals, the coverage of clinically relevant tasks by AI benchmarks is largely unclear. Furthermore, there is a lack of systematized meta-information that allows clinical AI researchers to quickly determine accessibility, scope, content and other characteristics of datasets and benchmark datasets relevant to the clinical domain. To address these issues, we curated and released a comprehensive catalogue of datasets and benchmarks pertaining to the broad domain of clinical and biomedical natural language processing (NLP), based on a systematic review of literature and online resources. A total of 450 NLP datasets were manually systematized and annotated with rich metadata, such as targeted tasks, clinical applicability, data types, performance metrics, accessibility and licensing information, and availability of data splits. We then compared tasks covered by AI benchmark datasets with relevant tasks that medical practitioners reported as highly desirable targets for automation in a previous empirical study. Our analysis indicates that AI benchmarks of direct clinical relevance are scarce and fail to cover most work activities that clinicians want to see addressed. In particular, tasks associated with routine documentation and patient data administration workflows are not represented despite significant associated workloads. Thus, currently available AI benchmarks are improperly aligned with desired targets for AI automation in clinical settings, and novel benchmarks should be created to fill these gaps.
Abstract（参考訳）: モデルパフォーマンスの評価と比較を可能にする公開可能なベンチマークは、人工知能(AI)の進歩の重要な要因である。近年のAI能力の進歩は、医療専門家の認知プロセスを支援し、強化することで医療実践を変革する可能性を秘めているが、AIベンチマークによる臨床関連タスクのカバレッジはほとんど不明である。さらに、システム化されたメタ情報がないため、臨床AI研究者は、臨床領域に関連するデータセットやベンチマークデータセットのアクセシビリティ、スコープ、コンテンツ、その他の特性を迅速に決定できる。これらの問題に対処するため,文献とオンラインリソースの体系的レビューに基づいて,広範な臨床・生物医学自然言語処理分野(nlp)に関連するデータセットとベンチマークの包括的カタログを作成・公開した。 450のNLPデータセットを手動で体系化し、ターゲットタスク、臨床応用性、データタイプ、パフォーマンスメトリクス、アクセシビリティとライセンシング情報、データ分割の可用性など、豊富なメタデータで注釈付けした。続いて私たちは、AIベンチマークデータセットでカバーされたタスクと、医療従事者が以前の実証研究で非常に望ましい自動化ターゲットとして報告した関連するタスクを比較した。我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。特に、日常的なドキュメントや患者データ管理ワークフローに関連するタスクは、重要な関連するワークロードにもかかわらず表現されない。したがって、現在利用可能なAIベンチマークは、臨床環境でAI自動化の望ましい目標と不適切に一致しており、これらのギャップを埋めるために新しいベンチマークを作成する必要がある。

関連論文リスト

Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for AI Training in Healthcare [0.0]
GPT-4 APIは、この制限を克服するための高品質な合成データセットを生成するために使用された。得られたデータには、医療提供者の詳細、病院部門、病棟、ベッド割り当て、患者人口統計、緊急連絡先、バイタルサイン、免疫、アレルギー、医療履歴、アポイントメント、病院訪問、検査、診断、治療計画、医療ノート、訪問ログ、退院サマリー、レファラルが含まれていた。
論文参考訳（メタデータ） (2025-04-29T16:37:34Z)
Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文参考訳（メタデータ） (2025-03-02T11:45:50Z)
Datasheets for Healthcare AI: A Framework for Transparency and Bias Mitigation [0.0]
トレーニングデータセットにおけるバイアス、データ不完全性、不正確性は、不公平な結果をもたらし、既存の格差を増幅する。透明性を促進し,規制要件との整合性を確保するためのデータセットドキュメンテーションフレームワークを提案する。この発見は、責任あるAI開発を促進する上で、データセットドキュメンテーションの重要性を強調している。
論文参考訳（メタデータ） (2025-01-09T23:36:34Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
Large Language Model Benchmarks in Medical Tasks [11.196196955468992]
本稿では,医療用大規模言語モデル(LLM)タスクに使用される様々なベンチマークデータセットについて調査する。調査では、データセットをモダリティで分類し、その重要性、データ構造、LLMの開発への影響について論じている。この論文は、言語多様性、構造化オミクスデータ、および合成に対する革新的なアプローチを含むデータセットの必要性を強調している。
論文参考訳（メタデータ） (2024-10-28T11:07:33Z)
Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI [0.0]
本研究は、医療データの標準化など、特定の課題に対処するため、大規模言語モデルの採用を念頭においている。この結果から,大規模言語モデルを用いることで手作業によるデータキュレーションの必要性が著しく低下することが示唆された。提案手法は、医療におけるAIの統合を迅速化し、患者のケアの質を向上させるとともに、AIのためのデータ作成に必要な時間と資金を最小化する。
論文参考訳（メタデータ） (2024-08-16T20:51:21Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文参考訳（メタデータ） (2024-06-30T09:13:10Z)
ACR: A Benchmark for Automatic Cohort Retrieval [1.3547712404175771]
現在のコホート検索手法は、手作業によるキュレーションと組み合わせた構造化データの自動クエリに依存している。大規模言語モデル(LLM)と情報検索(IR)の最近の進歩は、これらのシステムに革命をもたらす有望な道を提供する。本稿では,新しいタスクであるAutomatic Cohort Retrieval (ACR)を導入し,LLMと商用のドメイン固有のニューロシンボリックアプローチの性能を評価する。
論文参考訳（メタデータ） (2024-06-20T23:04:06Z)
Challenges for Responsible AI Design and Workflow Integration in Healthcare: A Case Study of Automatic Feeding Tube Qualification in Radiology [35.284458448940796]
ナトリウムガスチューブ(NGT)は、鼻から胃に挿入されたチューブを供給し、栄養や薬品を供給している。近年のAI開発は、チェストX線画像からNGT配置を堅牢に検出する可能性を示している。本稿では,この問題に対する人間中心のアプローチを提案するとともに,コンテキスト調査および15の臨床ステークホルダとの詳細なインタビューの結果から得られた知見について述べる。
論文参考訳（メタデータ） (2024-05-08T14:16:22Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文参考訳（メタデータ） (2023-07-19T12:35:09Z)
Explainable AI for clinical and remote health applications: a survey on tabular and time series data [3.655021726150368]
XAIは、特に医療において、さまざまな研究領域やデータタイプに同じ関心を集めていない点に注意が必要だ。本稿は,過去5年間の文献を概観し,生成した説明のタイプと,それらの関連性や品質を評価するための取り組みについて述べる。
論文参考訳（メタデータ） (2022-09-14T10:01:29Z)
MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。 MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文参考訳（メタデータ） (2021-09-29T18:09:41Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。