論文の概要: In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review
- arxiv url: http://arxiv.org/abs/2501.10727v1
- Date: Sat, 18 Jan 2025 11:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:04.188527
- Title: In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review
- Title(参考訳): 画像:医療画像データセット、アーティファクト、およびそれらの生きたレビュー
- Authors: Amelia Jiménez-Sánchez, Natalia-Rozalia Avlona, Sarah de Boer, Víctor M. Campello, Aasa Feragen, Enzo Ferrante, Melanie Ganz, Judy Wawira Gichoya, Camila González, Steff Groefsema, Alessa Hering, Adam Hulman, Leo Joskowicz, Dovile Juodelyte, Melih Kandemir, Thijs Kooi, Jorge del Pozo Lérida, Livie Yumeng Li, Andre Pacheco, Tim Rädsch, Mauricio Reyes, Théo Sourget, Bram van Ginneken, David Wen, Nina Weng, Jack Junchi Xu, Hubert Dariusz Zając, Maria A. Zuluaga, Veronika Cheplygina,
- Abstract要約: 本稿では,複数の医用画像アプリケーションにまたがる公開データセットとその関連研究成果を継続的に追跡するリビングレビューを提案する。
医用画像データセットの作成に関する重要な考察、データアノテーションのベストプラクティスの見直し、ショートカットの重要性と人口分布の多様性について議論し、ライフサイクル全体を通してデータセットを管理することの重要性を強調する。
- 参考スコア(独自算出の注目度): 18.178774133733686
- License:
- Abstract: Datasets play a critical role in medical imaging research, yet issues such as label quality, shortcuts, and metadata are often overlooked. This lack of attention may harm the generalizability of algorithms and, consequently, negatively impact patient outcomes. While existing medical imaging literature reviews mostly focus on machine learning (ML) methods, with only a few focusing on datasets for specific applications, these reviews remain static -- they are published once and not updated thereafter. This fails to account for emerging evidence, such as biases, shortcuts, and additional annotations that other researchers may contribute after the dataset is published. We refer to these newly discovered findings of datasets as research artifacts. To address this gap, we propose a living review that continuously tracks public datasets and their associated research artifacts across multiple medical imaging applications. Our approach includes a framework for the living review to monitor data documentation artifacts, and an SQL database to visualize the citation relationships between research artifact and dataset. Lastly, we discuss key considerations for creating medical imaging datasets, review best practices for data annotation, discuss the significance of shortcuts and demographic diversity, and emphasize the importance of managing datasets throughout their entire lifecycle. Our demo is publicly available at http://130.226.140.142.
- Abstract(参考訳): データセットは医療画像研究において重要な役割を果たすが、ラベルの品質、ショートカット、メタデータといった問題はしばしば見過ごされる。
この注意の欠如はアルゴリズムの一般化可能性に悪影響を及ぼし、結果として患者の結果に悪影響を及ぼす可能性がある。
既存の医療画像文献レビューは、主に機械学習(ML)メソッドに焦点を当てており、特定のアプリケーションのデータセットにのみ焦点をあてている。
これは、バイアスやショートカット、データセットが公開された後に他の研究者が貢献する可能性のある追加アノテーションなど、新たなエビデンスを説明できない。
新たに発見されたこれらのデータセットの発見を研究成果として紹介する。
このギャップに対処するために、複数の医療画像アプリケーションにまたがる公開データセットとその関連研究成果を継続的に追跡する生活レビューを提案する。
このアプローチには、データドキュメントアーティファクトを監視するリビングレビューのためのフレームワークと、研究アーティファクトとデータセット間の引用関係を視覚化するSQLデータベースが含まれています。
最後に、医用画像データセットの作成に関する重要な考察、データアノテーションのベストプラクティスの見直し、ショートカットの重要性と人口分布の多様性について議論し、ライフサイクル全体を通してデータセットを管理することの重要性を強調する。
私たちのデモはhttp://130.226.140.142.comで公開されています。
関連論文リスト
- A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Copycats: the many lives of a publicly available medical imaging dataset [12.98380178359767]
医療画像(MI)データセットは、医療における人工知能の基本である。
MIデータセットは以前はプロプライエタリだったが、KaggleやHuggingFaceといったコミュニティに分散したプラットフォーム(CCP)など、徐々に一般向けに利用されるようになった。
オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質と推奨のプラクティスを維持できない。
論文 参考訳(メタデータ) (2024-02-09T12:01:22Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Applied Deep Learning to Identify and Localize Polyps from Endoscopic
Images [0.0]
我々は,ポリープや潰瘍のアノテーションを含むデータセットのオープンソース化を目指してきた。
これは、ポリプと潰瘍の画像を含むインド初のデータセットです。
大規模な公開データセットでトレーニングされた、人気のあるディープラーニングオブジェクト検出モデルを用いて、データセットを評価しました。
論文 参考訳(メタデータ) (2023-01-22T22:14:25Z) - Is More Data All You Need? A Causal Exploration [4.756600446882457]
因果分析は、医療や経済学において、行動や政策の影響についての洞察を得るためにしばしば用いられる。
本稿では,データセット介入が画像分類モデルの出力に与える影響について検討する。
論文 参考訳(メタデータ) (2022-06-06T08:02:54Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network
using Transformers for Cross-Modal Information Retrieval in Histopathology
Archives [0.7614628596146599]
クロスモダリティデータ検索は多くの分野や研究分野の要件となっている。
本研究では,共同潜在空間における画像やテキストの表現を支援するために,新たな損失項を持つ新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-02T22:42:20Z) - Application of DatasetGAN in medical imaging: preliminary studies [10.260087683496431]
ジェネレーティブ・ディベサール・ネットワーク(GAN)は医用画像の多くの可能性について広く研究されている。
datasetGANは、高品質なセグメンテーションイメージを合成できるモダンなGANをベースにした、最近提案されたフレームワークである。
医療画像への応用に焦点を当てた研究は発表されていない。
論文 参考訳(メタデータ) (2022-02-27T22:03:20Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。