論文の概要: Towards actionability for open medical imaging datasets: lessons from
community-contributed platforms for data management and stewardship
- arxiv url: http://arxiv.org/abs/2402.06353v1
- Date: Fri, 9 Feb 2024 12:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:06:50.254172
- Title: Towards actionability for open medical imaging datasets: lessons from
community-contributed platforms for data management and stewardship
- Title(参考訳): オープン医療画像データセットの行動可能性に向けて--データ管理とスチュワードシップのためのコミュニティ提供プラットフォームからの教訓
- Authors: Amelia Jim\'enez-S\'anchez, Natalia-Rozalia Avlona, Dovile Juodelyte,
Th\'eo Sourget, Caroline Vang-Larsen, Hubert Dariusz Zaj\k{a}c, Veronika
Cheplygina
- Abstract要約: 医療画像データセットは、医療における人工知能の基本である。
それらはしばしば、KaggleやHuggingFaceといったプライベート企業を含むCommunity-Contributed Platforms (CCP)上でホストされる。
オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質を維持できない。
- 参考スコア(独自算出の注目度): 1.758593528245578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical imaging datasets are fundamental to artificial intelligence (AI) in
healthcare. The accuracy, robustness and fairness of diagnostic algorithms
depend on the data (and its quality) on which the models are trained and
evaluated. Medical imaging datasets have become increasingly available to the
public, and are often hosted on Community-Contributed Platforms (CCP),
including private companies like Kaggle or HuggingFace. While open data is
important to enhance the redistribution of data's public value, we find that
the current CCP governance model fails to uphold the quality needed and
recommended practices for sharing, documenting, and evaluating datasets. In
this paper we investigate medical imaging datasets on CCPs and how they are
documented, shared, and maintained. We first highlight some differences between
medical imaging and computer vision, particularly in the potentially harmful
downstream effects due to poor adoption of recommended dataset management
practices. We then analyze 20 (10 medical and 10 computer vision) popular
datasets on CCPs and find vague licenses, lack of persistent identifiers and
storage, duplicates and missing metadata, with differences between the
platforms. We present "actionability" as a conceptual metric to reveal the data
quality gap between characteristics of data on CCPs and the desired
characteristics of data for AI in healthcare. Finally, we propose a
commons-based stewardship model for documenting, sharing and maintaining
datasets on CCPs and end with a discussion of limitations and open questions.
- Abstract(参考訳): 医療画像データセットは、医療における人工知能(AI)の基本である。
診断アルゴリズムの正確性、堅牢性、公平性は、モデルが訓練され評価されるデータ(およびその品質)に依存する。
医用画像データセットはますます一般公開され、KaggleやHuggingFaceといったプライベート企業を含むCommunity-Contributed Platforms (CCP)上でホストされることが多い。
オープンデータはデータの公開価値の再分配を強化するために重要であるが、現在のcppガバナンスモデルでは、データセットの共有、文書化、評価に必要な品質と推奨プラクティスの維持に失敗している。
本稿では,CCPの医療画像データセットとその文書化,共有,維持方法について検討する。
まず,医療画像とコンピュータビジョンの相違点を強調する。特に,推奨データセット管理手法の採用が不十分なことによる下流効果について報告する。
次に、CCP上で20(医療とコンピュータビジョン10)の一般的なデータセットを分析し、曖昧なライセンス、永続的な識別子とストレージの欠如、重複とメタデータの欠如、プラットフォーム間の差異などを見つけます。
我々は,CCPデータの特徴と医療におけるAIデータの特徴との間のデータ品質のギャップを明らかにするための概念的指標として,「行動可能性」を提示する。
最後に、CCP上のデータセットの文書化、共有、保守のためのコモンズベースのスチュワードシップモデルを提案し、制限とオープンな質問に関する議論に終止符を打つ。
関連論文リスト
- Investigating the Quality of DermaMNIST and Fitzpatrick17k
Dermatological Image Datasets [19.128392861461297]
DermaMNIST と Fitzpatrick17k という2つの一般的な皮膚画像データセットの精査分析を行った。
データ品質の問題を明らかにし、これらの問題がベンチマーク結果に与える影響を測定し、データセットの修正を提案する。
論文 参考訳(メタデータ) (2024-01-25T20:29:01Z) - Data-Centric Foundation Models in Computational Healthcare: A Survey [22.459507690070463]
AI技術の新たなスイートとしてのファンデーションモデル(FM)は、計算医療の波を巻き起こしている。
我々は、AIセキュリティ、アセスメント、および人間の価値との整合性における重要な視点について議論する。
本報告では,患者の予後と臨床ワークフローを向上するために,FMベースの分析を期待できる展望を提供する。
論文 参考訳(メタデータ) (2024-01-04T08:00:32Z) - Platform for generating medical datasets for machine learning in public
health [0.0]
本稿では,マルチモーダル医療データの品質と信頼性を持続的に生成するプラットフォームの概念を実証する。
異なる外部ソースからデータを収集し、特別なサービスを使用して調和させ、調和したデータを匿名化し、処理されたデータをラベル付けする。
論文 参考訳(メタデータ) (2023-10-12T17:23:52Z) - Medical Federated Model with Mixture of Personalized and Sharing
Components [31.068735334318088]
本稿では,その問題に対処するための新しい個人化学習フレームワークを提案する。
ローカルデータ間の類似性を認識したパーソナライズされたモデルが得られる。
また,計算効率を大幅に向上させる効率的な計算コスト削減手法を提案する。
論文 参考訳(メタデータ) (2023-06-26T07:50:32Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Non-Imaging Medical Data Synthesis for Trustworthy AI: A Comprehensive
Survey [6.277848092408045]
データ品質は、医療において信頼できるAIを開発する上で重要な要素である。
高品質なデータセットへのアクセスは、データ取得の技術的困難によって制限される。
医療データの大規模な共有は、厳格な倫理的制約によって妨げられている。
論文 参考訳(メタデータ) (2022-09-17T13:34:17Z) - When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning
Framework in Classification of Medical Images on Limited Data: A COVID-19
Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。
CNNは医療画像の解析に広く利用され、検証されている。
論文 参考訳(メタデータ) (2022-03-24T02:09:41Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。