論文の概要: Investigating Data Interventions for Subgroup Fairness: An ICU Case Study
- arxiv url: http://arxiv.org/abs/2604.03478v1
- Date: Fri, 03 Apr 2026 21:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.599568
- Title: Investigating Data Interventions for Subgroup Fairness: An ICU Case Study
- Title(参考訳): サブグループフェアネスのためのデータ介入の調査: ICU ケーススタディ
- Authors: Erin Tan, Judy Hanwen Shen, Irene Y. Chen,
- Abstract要約: 個人に関する意思決定を自動化するために機械学習モデルが使用される高い状況下では、アルゴリズムバイアスの存在がシステム的損害を悪化させる可能性がある。
医療の文脈におけるサブグループパフォーマンスを改善するためにデータソースを組み合わせることの限界について検討する。
データの追加はモデルフェアネスとパフォーマンスの両方に役立ち、データ選択のための直感的な戦略は信頼できない。
- 参考スコア(独自算出の注目度): 3.9822386990811593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-stakes settings where machine learning models are used to automate decision-making about individuals, the presence of algorithmic bias can exacerbate systemic harm to certain subgroups of people. These biases often stem from the underlying training data. In practice, interventions to "fix the data" depend on the actual additional data sources available -- where many are less than ideal. In these cases, the effects of data scaling on subgroup performance become volatile, as the improvements from increased sample size are counteracted by the introduction of distribution shifts in the training set. In this paper, we investigate the limitations of combining data sources to improve subgroup performance within the context of healthcare. Clinical models are commonly trained on datasets comprised of patient electronic health record (EHR) data from different hospitals or admission departments. Across two such datasets, the eICU Collaborative Research Database and the MIMIC-IV dataset, we find that data addition can both help and hurt model fairness and performance, and many intuitive strategies for data selection are unreliable. We compare model-based post-hoc calibration and data-centric addition strategies to find that the combination of both is important to improve subgroup performance. Our work questions the traditional dogma of "better data" for overcoming fairness challenges by comparing and combining data- and model-based approaches.
- Abstract(参考訳): 個人に関する意思決定を自動化するために機械学習モデルが使用される高い状況下では、アルゴリズムバイアスの存在は、ある種のサブグループに対するシステム的有害を悪化させる可能性がある。
これらのバイアスは、基礎となるトレーニングデータに由来することが多い。
実際には、"データを修正する"ための介入は、利用可能な実際の追加データソースに依存します。
このような場合、データスケーリングがサブグループ性能に与える影響は、トレーニングセットにおける分散シフトの導入により、サンプルサイズの増加による改善が防止されるため、不安定になる。
本稿では,医療の文脈におけるサブグループパフォーマンス向上のために,データソースを組み合わせることの限界について検討する。
臨床モデルは、様々な病院や入院部署の患者電子健康記録(EHR)データからなるデータセットに基づいて訓練される。
このような2つのデータセット、すなわちeICU Collaborative Research DatabaseとMIMIC-IVデータセットは、データの追加がモデルフェアネスとパフォーマンスを損なうのに役立ち、多くの直感的なデータ選択戦略は信頼できない。
モデルに基づくポストホックキャリブレーションとデータ中心の追加戦略を比較し、両者の組み合わせがサブグループのパフォーマンス向上に重要であることを示す。
我々の研究は、データとモデルベースのアプローチを比較し、組み合わせることで、公正性の課題を克服するために、従来の"ベタデータ"の難題に疑問を投げかける。
関連論文リスト
- Group-Level Data Selection for Efficient Pretraining [49.18903821780051]
Group-MATESは、言語モデル事前訓練の速度品質フロンティアを最適化する効率的なグループレベルのデータ選択手法である。
Group-MATESは、リレーショナルデータの影響モデルを用いてコストの高いグループレベルの選択をパラメータ化する。
論文 参考訳(メタデータ) (2025-02-20T16:34:46Z) - Improving Equity in Health Modeling with GPT4-Turbo Generated Synthetic Data: A Comparative Study [1.85743121594882]
デモグラフィック群は、しばしば医学データセットで異なるレートで表現される。
これらの違いは機械学習アルゴリズムに偏りを生じさせ、より表現しやすいグループのパフォーマンスが向上する。
1つの有望な解決策は、非表現的データセットの潜在的な悪影響を軽減するために合成データを生成することである。
論文 参考訳(メタデータ) (2024-12-20T20:49:17Z) - Fair Distributed Machine Learning with Imbalanced Data as a Stackelberg Evolutionary Game [0.0]
分散学習はStackelbergの進化ゲームだと考えている。
3つの医学データセットを用いて、分散学習における不足表現ノードに対する動的重み付けの影響を明らかにする。
論文 参考訳(メタデータ) (2024-12-20T17:23:12Z) - Enhancing Performance for Highly Imbalanced Medical Data via Data Regularization in a Federated Learning Setting [6.22153888560487]
本手法の目的は,心血管疾患予測のためのモデル性能を向上させることである。
本手法は, 心臓血管疾患予測のための4つのデータセットにまたがって評価され, 異なるクライアントに分散している。
論文 参考訳(メタデータ) (2024-05-30T19:15:38Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Cohort Bias Adaptation in Aggregated Datasets for Lesion Segmentation [0.8466401378239363]
マルチソースデータセット間でコホートバイアスを学習し,考慮するための一般化されたアフィン条件付けフレームワークを提案する。
我々は,コホートバイアス適応法により,プールしたデータセット上でのネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2021-08-02T08:32:57Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。