論文の概要: Examining Imbalance Effects on Performance and Demographic Fairness of Clinical Language Models
- arxiv url: http://arxiv.org/abs/2412.17803v1
- Date: Mon, 23 Dec 2024 18:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:00.219351
- Title: Examining Imbalance Effects on Performance and Demographic Fairness of Clinical Language Models
- Title(参考訳): 臨床言語モデルの性能と画像の公正性に及ぼす不均衡の影響の検討
- Authors: Precious Jones, Weisi Liu, I-Chan Huang, Xiaolei Huang,
- Abstract要約: 本研究は,ICD符号予測におけるデータ不均衡とモデル性能の関係を統計的に検証する。
我々は、最先端のバイオメディカル言語モデルを用いて、性別、年齢、民族、および健康の社会的決定要因の標準ベンチマークデータにおける不均衡を分析する。
我々の研究は、データの不均衡がモデルの性能と公平性に大きく影響していることを示しているが、多数派と特徴的類似性はより重要な要素であるかもしれない。
- 参考スコア(独自算出の注目度): 4.390908825243365
- License:
- Abstract: Data imbalance is a fundamental challenge in applying language models to biomedical applications, particularly in ICD code prediction tasks where label and demographic distributions are uneven. While state-of-the-art language models have been increasingly adopted in biomedical tasks, few studies have systematically examined how data imbalance affects model performance and fairness across demographic groups. This study fills the gap by statistically probing the relationship between data imbalance and model performance in ICD code prediction. We analyze imbalances in a standard benchmark data across gender, age, ethnicity, and social determinants of health by state-of-the-art biomedical language models. By deploying diverse performance metrics and statistical analyses, we explore the influence of data imbalance on performance variations and demographic fairness. Our study shows that data imbalance significantly impacts model performance and fairness, but feature similarity to the majority class may be a more critical factor. We believe this study provides valuable insights for developing more equitable and robust language models in healthcare applications.
- Abstract(参考訳): データ不均衡は、特にラベルと人口分布が不均一なICDコード予測タスクにおいて、バイオメディカルアプリケーションに言語モデルを適用する際の根本的な課題である。
最先端の言語モデルは、バイオメディカルなタスクにおいてますます採用されているが、データ不均衡が人口集団間でのモデル性能と公平性にどのように影響するかを体系的に研究する研究はほとんどない。
本研究は,ICD符号予測におけるデータ不均衡とモデル性能の関係を統計的に検証することにより,ギャップを埋める。
我々は、最先端のバイオメディカル言語モデルを用いて、性別、年齢、民族、および健康の社会的決定要因の標準ベンチマークデータにおける不均衡を分析する。
多様なパフォーマンス指標と統計分析を配置することにより、データの不均衡がパフォーマンスの変動と人口統計学的公正性に与える影響を考察する。
我々の研究は、データの不均衡がモデルの性能と公平性に大きく影響していることを示しているが、多数派と特徴的類似性はより重要な要素であるかもしれない。
この研究は、医療アプリケーションにおいて、より公平で堅牢な言語モデルを開発する上で、貴重な洞察を提供すると考えている。
関連論文リスト
- Using Backbone Foundation Model for Evaluating Fairness in Chest Radiography Without Demographic Data [2.7436483977171333]
本研究の目的は,基礎モデルのバックボーンを埋め込み抽出器として用いることの有効性を検討することである。
我々は,これらのグループを,前処理,内処理,評価など,様々な段階のバイアス軽減に活用することを提案する。
論文 参考訳(メタデータ) (2024-08-28T20:35:38Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Fairness in Machine Learning meets with Equity in Healthcare [6.842248432925292]
本研究では,データやモデルのバイアスを識別・緩和する人工知能フレームワークを提案する。
ケーススタディでは、データの体系的バイアスがモデル予測における増幅バイアスにどのように寄与するかを示す。
今後の研究は、提案するMLフレームワークを実世界の臨床環境でテストし、検証することを目的としており、その影響が健康株の促進に与える影響を評価する。
論文 参考訳(メタデータ) (2023-05-11T14:25:34Z) - Connecting Fairness in Machine Learning with Public Health Equity [0.0]
データとモデル設計のバイアスは、特定の保護されたグループの格差をもたらし、医療における既存の不平等を増幅します。
本研究は,MLフェアネスに関する基礎文献を要約し,データとモデルのバイアスを特定し緩和するための枠組みを提案する。
ケーススタディは、このフレームワークがこれらのバイアスを防ぎ、公衆衛生における公平で公平なMLモデルの必要性を強調するためにどのように使用できるかを示している。
論文 参考訳(メタデータ) (2023-04-08T10:21:49Z) - Evaluating the Fairness of Deep Learning Uncertainty Estimates in
Medical Image Analysis [3.5536769591744557]
深層学習(DL)モデルは多くの医療画像解析タスクで大きな成功を収めている。
しかし、結果として得られたモデルを実際の臨床状況に展開するには、異なるサブ集団間での堅牢性と公平性が必要である。
近年の研究では、人口統計学的サブグループにまたがるDLモデルに有意なバイアスが見られ、モデルに公平性が欠如していることが示されている。
論文 参考訳(メタデータ) (2023-03-06T16:01:30Z) - Bias Reducing Multitask Learning on Mental Health Prediction [18.32551434711739]
メンタルヘルスの検出や予測のための機械学習モデルの開発では、研究が増加している。
本研究では,マルチタスク学習に基づくバイアス緩和手法を不安予測モデルに適用し,公平性分析を行うことを目的とする。
分析の結果、我々の不安予測ベースモデルでは、年齢、収入、民族性、そして参加者が米国で生まれたかどうかに偏りが生じていた。
論文 参考訳(メタデータ) (2022-08-07T02:28:32Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。