論文の概要: MammoClean: Toward Reproducible and Bias-Aware AI in Mammography through Dataset Harmonization
- arxiv url: http://arxiv.org/abs/2511.02400v1
- Date: Tue, 04 Nov 2025 09:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.873547
- Title: MammoClean: Toward Reproducible and Bias-Aware AI in Mammography through Dataset Harmonization
- Title(参考訳): MammoClean:データセット調和によるマンモグラフィーにおける再現性とバイアス認識AIを目指して
- Authors: Yalda Zafari, Hongyi Pan, Gorkem Durak, Ulas Bagci, Essam A. Rashed, Mohamed Mabrok,
- Abstract要約: MammoCleanは、マンモグラフィデータセットの標準化とバイアス定量化のためのフレームワークである。
MammoCleanを使ってバイアス源を特定し、緩和することで、研究者は統一されたマルチデータセットトレーニングコーパスを構築することができる。
MammoCleanは、マンモグラフィーにおけるバイアス認識AI開発に不可欠な、再現可能なパイプラインを提供する。
- 参考スコア(独自算出の注目度): 11.587767922555628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of clinically reliable artificial intelligence (AI) systems for mammography is hindered by profound heterogeneity in data quality, metadata standards, and population distributions across public datasets. This heterogeneity introduces dataset-specific biases that severely compromise the generalizability of the model, a fundamental barrier to clinical deployment. We present MammoClean, a public framework for standardization and bias quantification in mammography datasets. MammoClean standardizes case selection, image processing (including laterality and intensity correction), and unifies metadata into a consistent multi-view structure. We provide a comprehensive review of breast anatomy, imaging characteristics, and public mammography datasets to systematically identify key sources of bias. Applying MammoClean to three heterogeneous datasets (CBIS-DDSM, TOMPEI-CMMD, VinDr-Mammo), we quantify substantial distributional shifts in breast density and abnormality prevalence. Critically, we demonstrate the direct impact of data corruption: AI models trained on corrupted datasets exhibit significant performance degradation compared to their curated counterparts. By using MammoClean to identify and mitigate bias sources, researchers can construct unified multi-dataset training corpora that enable development of robust models with superior cross-domain generalization. MammoClean provides an essential, reproducible pipeline for bias-aware AI development in mammography, facilitating fairer comparisons and advancing the creation of safe, effective systems that perform equitably across diverse patient populations and clinical settings. The open-source code is publicly available from: https://github.com/Minds-R-Lab/MammoClean.
- Abstract(参考訳): マンモグラフィーのための臨床的に信頼性の高い人工知能(AI)システムの開発は、データ品質、メタデータ標準、公共データセット間の人口分布の深い異質性によって妨げられている。
この異質性は、データセット固有のバイアスを導入し、モデルの一般化性を著しく損なう。
本稿では,マンモグラフィーデータセットの標準化とバイアス定量化のための公開フレームワークであるMammoCleanを紹介する。
MammoCleanは、ケース選択、画像処理(ラテラルと強度補正を含む)を標準化し、メタデータを一貫したマルチビュー構造に統一する。
乳腺解剖, 画像特徴, および公共マンモグラフィーデータセットの総合的なレビューを行い, 主要なバイアス源を体系的に同定する。
MammoClean を3つの異種データセット (CBIS-DDSM, TOMPEI-CMMD, VinDr-Mammo) に適用し, 乳腺密度と異常頻度の分布変化を定量化した。
破損したデータセットでトレーニングされたAIモデルは、キュレートされたデータセットと比較して、大幅なパフォーマンス低下を示します。
バイアス源の特定と緩和にMammoCleanを使用することで、研究者はより優れたクロスドメイン一般化を備えたロバストモデルの開発を可能にする、統一されたマルチデータセットトレーニングコーパスを構築することができる。
MammoCleanは、マンモグラフィーにおけるバイアス認識AI開発に不可欠な再現可能なパイプラインを提供し、より公平な比較を容易にし、多様な患者集団と臨床現場で公平に機能する安全で効果的なシステムの構築を推進している。
オープンソースコードは、https://github.com/Minds-R-Lab/MammoCleanから公開されている。
関連論文リスト
- Bias and Generalizability of Foundation Models across Datasets in Breast Mammography [4.117899774444893]
乳房マンモグラフィー分類のための基礎モデル(FM)の公平性とバイアスについて検討する。
我々は、未表現領域と社内データセットからのさまざまなソースを含む、膨大なデータセットのプールを活用している。
実験の結果,FMのモーダリティ固有の事前学習は性能を向上させるが,個々のデータセットの特徴に基づいて訓練された分類器はドメイン間の一般化に失敗することがわかった。
論文 参考訳(メタデータ) (2025-05-14T06:56:17Z) - AI Alignment in Medical Imaging: Unveiling Hidden Biases Through Counterfactual Analysis [16.21270312974956]
人口統計学などのセンシティブな属性に対する医療画像MLモデルの依存性を評価するための新しい統計フレームワークを提案する。
本稿では,条件付き潜伏拡散モデルと統計的仮説テストを組み合わせて,そのようなバイアスを特定し定量化する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:28:25Z) - A Demographic-Conditioned Variational Autoencoder for fMRI Distribution Sampling and Removal of Confounds [49.34500499203579]
変動型オートエンコーダ(VAE)ベースのモデルであるDemoVAEを作成し、人口統計学から fMRI の特徴を推定する。
ユーザが供給する人口動態に基づいて,高品質な合成fMRIデータを生成する。
論文 参考訳(メタデータ) (2024-05-13T17:49:20Z) - Fairness-Aware Data Augmentation for Cardiac MRI using Text-Conditioned Diffusion Models [1.6581402323174208]
本稿では,データセットに固有の不均衡を,合成データの生成によって緩和する手法を提案する。
我々は,患者メタデータと心臓の形状から合成したテキストを条件に,拡散確率モデルに基づく制御ネットを採用する。
本実験は,データセットの不均衡を緩和する手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-28T15:41:43Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。