論文の概要: Bias and Generalizability of Foundation Models across Datasets in Breast Mammography
- arxiv url: http://arxiv.org/abs/2505.10579v2
- Date: Mon, 19 May 2025 07:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.173868
- Title: Bias and Generalizability of Foundation Models across Datasets in Breast Mammography
- Title(参考訳): 乳房マンモグラフィーにおけるデータセット間の基礎モデルのバイアスと一般化可能性
- Authors: Elodie Germani, Ilayda Selin Türk, Fatima Zeineddine, Charbel Mourad, Shadi Albarqouni,
- Abstract要約: 乳房マンモグラフィー分類のための基礎モデル(FM)の公平性とバイアスについて検討する。
我々は、未表現領域と社内データセットからのさまざまなソースを含む、膨大なデータセットのプールを活用している。
実験の結果,FMのモーダリティ固有の事前学習は性能を向上させるが,個々のデータセットの特徴に基づいて訓練された分類器はドメイン間の一般化に失敗することがわかった。
- 参考スコア(独自算出の注目度): 4.117899774444893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decades, computer-aided diagnosis tools for breast cancer have been developed to enhance screening procedures, yet their clinical adoption remains challenged by data variability and inherent biases. Although foundation models (FMs) have recently demonstrated impressive generalizability and transfer learning capabilities by leveraging vast and diverse datasets, their performance can be undermined by spurious correlations that arise from variations in image quality, labeling uncertainty, and sensitive patient attributes. In this work, we explore the fairness and bias of FMs for breast mammography classification by leveraging a large pool of datasets from diverse sources-including data from underrepresented regions and an in-house dataset. Our extensive experiments show that while modality-specific pre-training of FMs enhances performance, classifiers trained on features from individual datasets fail to generalize across domains. Aggregating datasets improves overall performance, yet does not fully mitigate biases, leading to significant disparities across under-represented subgroups such as extreme breast densities and age groups. Furthermore, while domain-adaptation strategies can reduce these disparities, they often incur a performance trade-off. In contrast, fairness-aware techniques yield more stable and equitable performance across subgroups. These findings underscore the necessity of incorporating rigorous fairness evaluations and mitigation strategies into FM-based models to foster inclusive and generalizable AI.
- Abstract(参考訳): 過去数十年間、乳がんのスクリーニング手順を強化するためにコンピュータ支援診断ツールが開発されてきたが、その臨床応用は、データのばらつきと固有の偏見に悩まされている。
ファンデーションモデル(FM)は、広範かつ多様なデータセットを活用することで、目覚ましい一般化性と伝達学習能力を示しているが、画像品質の変化、ラベルの不確実性、センシティブな患者属性から生じる急激な相関によって、その性能を損なうことができる。
本研究では,乳房マンモグラフィー分類におけるFMの公平さと偏りについて,低表現領域からの多様なデータを含む様々な情報源からの大量のデータセットと社内データセットを用いて検討する。
我々の広範な実験により、FMのモーダリティ特化事前学習は性能を向上させるが、個々のデータセットの特徴に基づいて訓練された分類器は、ドメイン間での一般化に失敗することが示された。
データセットの集約は全体的なパフォーマンスを改善するが、バイアスを完全に緩和するわけではない。
さらに、ドメイン適応戦略はこれらの格差を減らすことができるが、しばしばパフォーマンスのトレードオフを引き起こす。
対照的に、公正を意識した手法は、サブグループ間でより安定で公平な性能をもたらす。
これらの知見は、包括的で一般化可能なAIを育成するために、厳密な公正評価と緩和戦略をFMベースモデルに組み込むことの必要性を浮き彫りにした。
関連論文リスト
- Evaluating Facial Expression Recognition Datasets for Deep Learning: A Benchmark Study with Novel Similarity Metrics [4.137346786534721]
本研究では,ディープラーニングモデルの学習に広く用いられている顔表情認識(FER)データセットの特徴と適合性について検討した。
子ども, 成人, 高齢者など特定の年齢層を対象として, 24 FER データセットを収集, 分析した。
最先端のニューラルネットワークを用いたベンチマーク実験では、大規模で自動収集されたデータセットがより一般化される傾向があることが明らかになった。
論文 参考訳(メタデータ) (2025-03-26T11:01:00Z) - Revisiting Automatic Data Curation for Vision Foundation Models in Digital Pathology [41.34847597178388]
視覚基盤モデル(FM)は、全スライディング画像から抽出された高度に異質なタイルの組織学的特徴を表現することを学ぶ。
タイルレベルでの教師なし自動データキュレーションの可能性について検討し,3億5000万個のタイルを考慮に入れた。
論文 参考訳(メタデータ) (2025-03-24T14:23:48Z) - Data-Driven Fairness Generalization for Deepfake Detection [1.2221087476416053]
ディープフェイク検出のためのトレーニングデータのバイアスは、異なるグループ間で異なるレベルのパフォーマンスをもたらす可能性がある。
本稿では,合成データセットとモデル最適化を利用して,深度検出における公平性一般化問題に対処するためのデータ駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T01:28:35Z) - Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Enhancing Facial Data Diversity with Style-based Face Aging [59.984134070735934]
特に、顔データセットは、通常、性別、年齢、人種などの属性の観点からバイアスされる。
本稿では, 細粒度の老化パターンをキャプチャするデータ拡張のための, 生成スタイルに基づく新しいアーキテクチャを提案する。
提案手法は, 年齢移動のための最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-06T21:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。