Fugu-MT 論文翻訳(概要): Towards actionability for open medical imaging datasets: lessons from community-contributed platforms for data management and stewardship

論文の概要: Towards actionability for open medical imaging datasets: lessons from community-contributed platforms for data management and stewardship

arxiv url: http://arxiv.org/abs/2402.06353v1
Date: Fri, 9 Feb 2024 12:01:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 17:06:50.254172
Title: Towards actionability for open medical imaging datasets: lessons from community-contributed platforms for data management and stewardship
Title（参考訳）: オープン医療画像データセットの行動可能性に向けて--データ管理とスチュワードシップのためのコミュニティ提供プラットフォームからの教訓
Authors: Amelia Jim\'enez-S\'anchez, Natalia-Rozalia Avlona, Dovile Juodelyte, Th\'eo Sourget, Caroline Vang-Larsen, Hubert Dariusz Zaj\k{a}c, Veronika Cheplygina
Abstract要約: 医療画像データセットは、医療における人工知能の基本である。それらはしばしば、KaggleやHuggingFaceといったプライベート企業を含むCommunity-Contributed Platforms (CCP)上でホストされる。オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質を維持できない。
参考スコア（独自算出の注目度）: 1.758593528245578
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Medical imaging datasets are fundamental to artificial intelligence (AI) in healthcare. The accuracy, robustness and fairness of diagnostic algorithms depend on the data (and its quality) on which the models are trained and evaluated. Medical imaging datasets have become increasingly available to the public, and are often hosted on Community-Contributed Platforms (CCP), including private companies like Kaggle or HuggingFace. While open data is important to enhance the redistribution of data's public value, we find that the current CCP governance model fails to uphold the quality needed and recommended practices for sharing, documenting, and evaluating datasets. In this paper we investigate medical imaging datasets on CCPs and how they are documented, shared, and maintained. We first highlight some differences between medical imaging and computer vision, particularly in the potentially harmful downstream effects due to poor adoption of recommended dataset management practices. We then analyze 20 (10 medical and 10 computer vision) popular datasets on CCPs and find vague licenses, lack of persistent identifiers and storage, duplicates and missing metadata, with differences between the platforms. We present "actionability" as a conceptual metric to reveal the data quality gap between characteristics of data on CCPs and the desired characteristics of data for AI in healthcare. Finally, we propose a commons-based stewardship model for documenting, sharing and maintaining datasets on CCPs and end with a discussion of limitations and open questions.
Abstract（参考訳）: 医療画像データセットは、医療における人工知能(AI)の基本である。診断アルゴリズムの正確性、堅牢性、公平性は、モデルが訓練され評価されるデータ(およびその品質)に依存する。医用画像データセットはますます一般公開され、KaggleやHuggingFaceといったプライベート企業を含むCommunity-Contributed Platforms (CCP)上でホストされることが多い。オープンデータはデータの公開価値の再分配を強化するために重要であるが、現在のcppガバナンスモデルでは、データセットの共有、文書化、評価に必要な品質と推奨プラクティスの維持に失敗している。本稿では,CCPの医療画像データセットとその文書化,共有,維持方法について検討する。まず,医療画像とコンピュータビジョンの相違点を強調する。特に,推奨データセット管理手法の採用が不十分なことによる下流効果について報告する。次に、CCP上で20(医療とコンピュータビジョン10)の一般的なデータセットを分析し、曖昧なライセンス、永続的な識別子とストレージの欠如、重複とメタデータの欠如、プラットフォーム間の差異などを見つけます。我々は,CCPデータの特徴と医療におけるAIデータの特徴との間のデータ品質のギャップを明らかにするための概念的指標として,「行動可能性」を提示する。最後に、CCP上のデータセットの文書化、共有、保守のためのコモンズベースのスチュワードシップモデルを提案し、制限とオープンな質問に関する議論に終止符を打つ。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Advancing Medical Representation Learning Through High-Quality Data [14.522284057070395]
PubMed Centralの高品質な医療データセットであるOpen-PMCを紹介する。インテキスト参照は、典型的にはキャプションに見られる抽象的な情報を超えて、よりリッチな医療コンテキストを提供する。我々は、検索とゼロショット分類タスクにわたるより大きなデータセットに対してOpen-PMCをベンチマークする。
論文参考訳（メタデータ） (2025-03-18T16:10:11Z)
In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review [18.178774133733686]
本稿では,複数の医用画像アプリケーションにまたがる公開データセットとその関連研究成果を継続的に追跡するリビングレビューを提案する。医用画像データセットの作成に関する重要な考察、データアノテーションのベストプラクティスの見直し、ショートカットの重要性と人口分布の多様性について議論し、ライフサイクル全体を通してデータセットを管理することの重要性を強調する。
論文参考訳（メタデータ） (2025-01-18T11:03:59Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets [19.128392861461297]
DermaMNIST と Fitzpatrick17k という2つの一般的な皮膚画像データセットの精査分析を行った。データ品質の問題を明らかにし、これらの問題がベンチマーク結果に与える影響を測定し、データセットの修正を提案する。
論文参考訳（メタデータ） (2024-01-25T20:29:01Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Building Flexible, Scalable, and Machine Learning-ready Multimodal Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。 MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。 MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文参考訳（メタデータ） (2023-09-30T15:44:39Z)
Privacy-Preserving Graph Machine Learning from Data to Computation: A Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。まずプライバシ保護グラフデータを生成する方法を検討する。次に,プライバシ保護情報を送信する方法について述べる。
論文参考訳（メタデータ） (2023-07-10T04:30:23Z)
Non-Imaging Medical Data Synthesis for Trustworthy AI: A Comprehensive Survey [6.277848092408045]
データ品質は、医療において信頼できるAIを開発する上で重要な要素である。高品質なデータセットへのアクセスは、データ取得の技術的困難によって制限される。医療データの大規模な共有は、厳格な倫理的制約によって妨げられている。
論文参考訳（メタデータ） (2022-09-17T13:34:17Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-18T20:13:51Z)
A Real Use Case of Semi-Supervised Learning for Mammogram Classification in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文参考訳（メタデータ） (2021-07-24T22:26:50Z)
On the Composition and Limitations of Publicly Available COVID-19 X-Ray Imaging Datasets [0.0]
データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
論文参考訳（メタデータ） (2020-08-26T14:16:01Z)
Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文参考訳（メタデータ） (2020-06-06T06:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。