論文の概要: Perspective on Bias in Biomedical AI: Preventing Downstream Healthcare Disparities
- arxiv url: http://arxiv.org/abs/2604.14514v1
- Date: Thu, 16 Apr 2026 01:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.665071
- Title: Perspective on Bias in Biomedical AI: Preventing Downstream Healthcare Disparities
- Title(参考訳): バイオメディカルAIにおけるバイアスの展望 : 下流医療格差の防止
- Authors: Michal Rosen-Zvi, Yoav Kan-Tor, Michael Danziger, Agata Ferretti, Javier Aula-Blasco, Julia Falcao, Ron Shamir, Mordechai Muszkat,
- Abstract要約: 多くの研究はオミクスデータの収集に重点を置いているが、これらのデータセットに関連する人口統計情報は、この研究では報告されていないことが多い。
CellxGeneやGEOのようなモデルトレーニングに一般的に使用される大規模なデータセットの分析は、ヨーロッパ系データが支配的な人口バイアスを明らかにしている。
我々は,バイオメディカルAIの公平性と堅牢性を改善するために,3つの基本原則 – Provenance, Openness, Evaluation Transparency – にコミュニティ全体で焦点をあてる。
- 参考スコア(独自算出の注目度): 1.2798311689567483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Healthcare disparities persist across socioeconomic boundaries, often attributed to unequal access to screening, diagnostics, and therapeutics. However, this perspective highlights that critical biases can emerge much earlier, during data collection and research prioritization, long before clinical implementation in cases where the focus of the studies and the data that is collected is at the molecular level. A vast number of studies focus on collecting omics data but the demographic information associated with these datasets is often not reported in the studies, and when it is reported, it shows big biases. An automated analysis of 4719 PubMed-indexed omics publications from 2015 to 2024 reveals that only a small fraction report ancestry or ethnicity information, with ancestry reporting improving slightly. Analysis of large-scale datasets commonly used for model training, such as CellxGene and GEO, reveals substantial population bias where European-ancestry data dominates. As biomedical foundation models become central to biomedical discovery with a paradigm in which base models are pretrained on large datasets and reusing them time and again for many different downstream tasks, they risk perpetuating or amplifying these early-stage biases, leading to cascading inequities that regulatory interventions cannot fully reverse. We propose a community-wide focus on three foundational principles: Provenance, Openness, and Evaluation Transparency to improve equity and robustness in biomedical AI. This approach aims to foster biomedical innovation that more effectively serves underserved populations and improves health outcomes.
- Abstract(参考訳): 医療格差は社会経済的境界を越えて持続し、しばしばスクリーニング、診断、治療への不平等なアクセスに起因する。
しかし、この視点は、データ収集と研究優先化の間において、研究の焦点と収集されるデータが分子レベルである場合において、臨床実装よりもずっと早く臨界バイアスが発生することを強調している。
多くの研究はオミクスデータの収集に重点を置いているが、これらのデータセットに関連する人口統計情報は研究には報告されていないことが多く、報告されると大きなバイアスが現れる。
2015年から2024年にかけて発行された4719 PubMed-indexed omics の自動分析では、わずかな報告の出自や民族情報のみであり、祖先の報告はわずかに改善されている。
CellxGeneやGEOのようなモデルトレーニングに一般的に使用される大規模なデータセットの分析は、ヨーロッパ系データが支配的な人口バイアスを明らかにしている。
バイオメディカルファンデーションモデルは、大規模なデータセットで事前訓練されたベースモデルを、さまざまな下流タスクのために繰り返し再利用するパラダイムで、生体医学的発見の中心となる。
我々は,バイオメディカルAIの公平性と堅牢性を改善するために,3つの基本原則 – Provenance, Openness, Evaluation Transparency – にコミュニティ全体で焦点をあてる。
このアプローチは、より効果的に過少な人口に役立ち、健康上の結果を改善するバイオメディカルイノベーションを育むことを目的としている。
関連論文リスト
- Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - Who Does Your Algorithm Fail? Investigating Age and Ethnic Bias in the MAMA-MIA Dataset [8.774604259603304]
乳癌腫瘍分類データセットMAMA-MIAで提供された自動セグメンテーションラベルの妥当性を検証した。
以上の結果から,若年者に対する本態性年齢関連バイアスは,データソースなどのコンバウンド要因をコントロールした後も持続することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-31T12:20:31Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Time-aware Heterogeneous Graph Transformer with Adaptive Attention Merging for Health Event Prediction [6.578298085691462]
本稿では,疾患領域の知識を同化し,薬物と疾患の複雑な関係を解明するための新しい異種グラフ学習モデルを提案する。
2つの医療データセットで評価したところ、予測精度と解釈可能性の両方において顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-04-23T08:01:30Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Potential sources of dataset bias complicate investigation of
underdiagnosis by machine learning algorithms [20.50071537200745]
Seyed-Kalantariらは、3つの胸部X線データセットで訓練されたモデルが偽陽性率の差をもたらすことを発見した。
この研究は、これらのモデルが体系的な下垂体手術を展示し、潜在的に増幅していると結論付けている。
論文 参考訳(メタデータ) (2022-01-19T20:51:38Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - Combining Graph Neural Networks and Spatio-temporal Disease Models to
Predict COVID-19 Cases in Germany [0.0]
いくつかの専門家は、新型コロナウイルスの拡散を説明するために人間の移動性を考慮する必要性を求めた。
ほとんどの統計モデルや疫学モデルでは、人間の移動性を符号化するデータを含む非構造化データソースを直接組み込むことはできない。
本稿では,両研究方向のトレードオフを提案し,統計回帰モデルと機械学習モデルの利点を組み合わせた新しい学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T16:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。