論文の概要: Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
- arxiv url: http://arxiv.org/abs/2603.27460v1
- Date: Sun, 29 Mar 2026 00:46:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.970921
- Title: Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
- Title(参考訳): Project Imaging-X:基礎モデル開発のための1000以上の医療画像データセットの調査
- Authors: Zhongying Deng, Cheng Tang, Ziyan Huang, Jiashi Lin, Ying Chen, Junzhi Ning, Chenglong Ma, Jiyao Liu, Wei Li, Yinghao Zhu, Shujian Gao, Yanyan Huang, Sibo Ju, Yanzhou Su, Pengcheng Chen, Wenhao Tang, Tianbin Li, Haoyu Wang, Yuanfeng Ji, Hui Sun, Shaobo Min, Liang Peng, Feilong Tang, Haochen Xue, Rulin Zhou, Chaoyang Zhang, Wenjie Li, Shaohao Rui, Weijie Ma, Xingyue Zhao, Yibin Wang, Kun Yuan, Zhaohui Lu, Shujun Wang, Jinjie Wei, Lihao Liu, Dingkang Yang, Lin Wang, Yulong Li, Haolin Yang, Yiqing Shen, Lequan Yu, Xiaowei Hu, Yun Gu, Yicheng Wu, Benyou Wang, Minghui Zhang, Angelica I. Aviles-Rivero, Qi Gao, Hongming Shan, Xiaoyu Ren, Fang Yan, Hongyu Zhou, Haodong Duan, Maosong Cao, Shanshan Wang, Bin Fu, Xiaomeng Li, Zhi Hou, Chunfeng Song, Lei Bai, Yuan Cheng, Yuandong Pu, Xiang Li, Wenhai Wang, Hao Chen, Jiaxin Zhuang, Songyang Zhang, Huiguang He, Mengzhang Li, Bohan Zhuang, Zhian Bai, Rongshan Yu, Liansheng Wang, Yukun Zhou, Xiaosong Wang, Xin Guo, Guanbin Li, Xiangru Lin, Dakai Jin, Mianxin Liu, Wenlong Zhang, Qi Qin, Conghui He, Yuqiang Li, Ye Luo, Nanqing Dong, Jie Xu, Wenqi Shao, Bo Zhang, Qiujuan Yan, Yihao Liu, Jun Ma, Zhi Lu, Yuewen Cao, Zongwei Zhou, Jianming Liang, Shixiang Tang, Qi Duan, Dongzhan Zhou, Chen Jiang, Yuyin Zhou, Yanwu Xu, Jiancheng Yang, Shaoting Zhang, Xiaohong Liu, Siqi Luo, Yi Xin, Chaoyu Liu, Haochen Wen, Xin Chen, Alejandro Lozano, Min Woo Sun, Yuhui Zhang, Yue Yao, Xiaoxiao Sun, Serena Yeung-Levy, Xia Li, Jing Ke, Chunhui Zhang, Zongyuan Ge, Ming Hu, Jin Ye, Zhifeng Li, Yirong Chen, Yu Qiao, Junjun He,
- Abstract要約: 我々は、1,000以上のオープンアクセスデータセットをカバーする、医療画像データセットの現在における最大の調査を提示する。
私たちの分析では、範囲が狭いタスクにまたがって断片化され、臓器やモダリティに不均一に分散した、質素なスケールのランドスケープを公開しています。
本稿では,メタデータ駆動型融合パラダイム(MDFP)を提案する。
- 参考スコア(独自算出の注目度): 314.80153557710616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have demonstrated remarkable success across diverse domains and tasks, primarily due to the thrive of large-scale, diverse, and high-quality datasets. However, in the field of medical imaging, the curation and assembling of such medical datasets are highly challenging due to the reliance on clinical expertise and strict ethical and privacy constraints, resulting in a scarcity of large-scale unified medical datasets and hindering the development of powerful medical foundation models. In this work, we present the largest survey to date of medical image datasets, covering over 1,000 open-access datasets with a systematic catalog of their modalities, tasks, anatomies, annotations, limitations, and potential for integration. Our analysis exposes a landscape that is modest in scale, fragmented across narrowly scoped tasks, and unevenly distributed across organs and modalities, which in turn limits the utility of existing medical image datasets for developing versatile and robust medical foundation models. To turn fragmentation into scale, we propose a metadata-driven fusion paradigm (MDFP) that integrates public datasets with shared modalities or tasks, thereby transforming multiple small data silos into larger, more coherent resources. Building on MDFP, we release an interactive discovery portal that enables end-to-end, automated medical image dataset integration, and compile all surveyed datasets into a unified, structured table that clearly summarizes their key characteristics and provides reference links, offering the community an accessible and comprehensive repository. By charting the current terrain and offering a principled path to dataset consolidation, our survey provides a practical roadmap for scaling medical imaging corpora, supporting faster data discovery, more principled dataset creation, and more capable medical foundation models.
- Abstract(参考訳): ファンデーションモデルは、大規模で多様な、高品質なデータセットの繁栄により、さまざまなドメインやタスクで顕著な成功を収めている。
しかし、医用画像の分野では、臨床専門知識と厳格な倫理的・プライバシー的制約に頼っているため、このような医療データセットのキュレーションと組み立ては極めて困難であり、大規模な統合医療データセットの不足と強力な医療基盤モデルの開発を妨げる。
本研究では,1,000以上のオープンアクセスデータセットを対象とし,そのモダリティ,タスク,解剖学,アノテーション,制限,統合可能性の体系的なカタログを作成した。
我々の分析は、範囲が狭いタスクにまたがって断片化され、臓器やモダリティに均等に分散した、スケールの控えめな風景を公開しており、それによって、汎用的で堅牢な医療基盤モデルを開発するための既存の医療画像データセットの有用性を制限している。
断片化を大規模化するために,公開データセットを共有モダリティやタスクに統合し,複数の小さなデータサイロをより大きく一貫性のあるリソースに変換する,メタデータ駆動型融合パラダイム(MDFP)を提案する。
MDFP上に構築されたインタラクティブなディスカバリポータルは、エンドツーエンドで自動化された医療画像データセットの統合を可能にし、すべての調査データセットを統合された構造化テーブルにコンパイルし、その重要な特徴を明確に要約し、参照リンクを提供し、コミュニティにアクセスしやすく包括的なリポジトリを提供する。
現在の地形をグラフ化し、データセット統合のための原則化された経路を提供することで、我々の調査は、医療画像コーパスをスケールするための実用的なロードマップを提供し、より高速なデータ発見、より原則化されたデータセット作成、より有能な医療基盤モデルをサポートします。
関連論文リスト
- HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology [0.0]
HISTAIは、様々な組織タイプから6万枚以上のスライドからなる、大きく、マルチモーダルでオープンアクセス可能なWSI(Whole Slide Image)コレクションである。
HISTAIデータセットの各症例には、診断、人口統計情報、詳細な病理アノテーション、標準化された診断コーディングを含む広範な臨床メタデータが添付されている。
論文 参考訳(メタデータ) (2025-05-17T18:59:32Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Universal Medical Imaging Model for Domain Generalization with Data Privacy [2.8727695958743364]
本稿では,複数の局所モデルからグローバルモデルへ知識を伝達するフェデレート学習手法を提案する。
主な目的は、幅広い医療画像タスクを実行できるグローバルモデルを訓練することである。
論文 参考訳(メタデータ) (2024-07-20T01:24:15Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。