Fugu-MT 論文翻訳(概要): On the Role of Calibration in Benchmarking Algorithmic Fairness for Skin Cancer Detection

論文の概要: On the Role of Calibration in Benchmarking Algorithmic Fairness for Skin Cancer Detection

arxiv url: http://arxiv.org/abs/2511.07700v1
Date: Wed, 12 Nov 2025 01:12:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-12 20:17:03.437315
Title: On the Role of Calibration in Benchmarking Algorithmic Fairness for Skin Cancer Detection
Title（参考訳）: 皮膚がん検診におけるベンチマークアルゴリズムフェアネスの校正の役割について
Authors: Brandon Dominique, Prudence Lam, Nicholas Kurtansky, Jochen Weber, Kivanc Kose, Veronica Rotemberg, Jennifer Dy,
Abstract要約: 我々はISIC 2020 Challengeデータセットの皮膚がん検出アルゴリズムの性能を評価する。 2位と3位のモデルと比較し、性別、人種、年齢によって定義されるサブグループに焦点を当てます。既存のモデルでは識別精度が向上するが,リスクを過度に診断し,新たなデータセットに適用した場合に校正上の問題があることが判明した。
参考スコア（独自算出の注目度）: 0.03066137405373616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial Intelligence (AI) models have demonstrated expert-level performance in melanoma detection, yet their clinical adoption is hindered by performance disparities across demographic subgroups such as gender, race, and age. Previous efforts to benchmark the performance of AI models have primarily focused on assessing model performance using group fairness metrics that rely on the Area Under the Receiver Operating Characteristic curve (AUROC), which does not provide insights into a model's ability to provide accurate estimates. In line with clinical assessments, this paper addresses this gap by incorporating calibration as a complementary benchmarking metric to AUROC-based fairness metrics. Calibration evaluates the alignment between predicted probabilities and observed event rates, offering deeper insights into subgroup biases. We assess the performance of the leading skin cancer detection algorithm of the ISIC 2020 Challenge on the ISIC 2020 Challenge dataset and the PROVE-AI dataset, and compare it with the second and third place models, focusing on subgroups defined by sex, race (Fitzpatrick Skin Tone), and age. Our findings reveal that while existing models enhance discriminative accuracy, they often over-diagnose risk and exhibit calibration issues when applied to new datasets. This study underscores the necessity for comprehensive model auditing strategies and extensive metadata collection to achieve equitable AI-driven healthcare solutions. All code is publicly available at https://github.com/bdominique/testing_strong_calibration.
Abstract（参考訳）: 人工知能(AI)モデルはメラノーマの検出において専門家レベルのパフォーマンスを示すが、その臨床応用は、性別、人種、年齢などの人口集団間でのパフォーマンス格差によって妨げられている。 AIモデルのパフォーマンスをベンチマークするためのこれまでの取り組みは、主に、正確に見積を行う能力に関する洞察を提供しないAUROC(Area Under the Receiver Operating curve)に依存するグループフェアネスメトリクスを使用して、モデルのパフォーマンスを評価することに重点を置いていた。臨床評価と合わせて,AUROCに基づく公正度尺度と相補的なベンチマーク指標としてキャリブレーションを組み込むことにより,このギャップに対処する。キャリブレーションは予測確率と観測された事象率の一致を評価し、サブグループのバイアスに関する深い洞察を提供する。 The ISIC 2020 Challenge on the ISIC 2020 Challenge dataset and the PROVE-AI dataset, and compared it with the second and third place model, Focus on the subgroups defined by sex, race (Fitzpatrick Skin Tone), and age。既存のモデルでは識別精度が向上するが,リスクを過度に診断し,新たなデータセットに適用した場合に校正上の問題があることが判明した。本研究は,適切なAI駆動型医療ソリューションを実現するために,包括的モデル監査戦略と広範囲なメタデータ収集の必要性を明らかにする。すべてのコードはhttps://github.com/bdominique/testing_strong_calibrationで公開されている。

関連論文リスト

Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文参考訳（メタデータ） (2026-01-29T14:06:50Z)
An Explainable and Fair AI Tool for PCOS Risk Assessment: Calibration, Subgroup Equity, and Interactive Clinical Deployment [0.10026496861838446]
本稿では,多嚢胞性卵巣症候群(PCOS)の予測のための,公平で解釈可能な機械学習フレームワークを提案する。このフレームワークは、SHAPに基づく特徴属性と人口統計監査を統合し、予測的説明と観察的差異を関連付ける。 StreamlitベースのWebインターフェースは、リアルタイムPCOSリスク評価、ロッテルダム基準評価、インタラクティブな「What-if」分析を可能にする。
論文参考訳（メタデータ） (2025-11-08T16:14:56Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Predictive Representativity: Uncovering Racial Bias in AI-based Skin Cancer Detection [0.0]
本稿では,予測表現性(PR)の概念を紹介する。 PRは、データセットの構成から成果レベルのエクイティへと焦点をシフトします。解析の結果,皮膚光タイプによる性能の相違が明らかとなった。
論文参考訳（メタデータ） (2025-07-10T22:21:06Z)
Fairness Evolution in Continual Learning for Medical Imaging [47.52603262576663]
本研究では、ドメイン固有の公平度指標を用いてタスク間でバイアスがどのように進化し、異なるCL戦略がこの進化にどのように影響するかを検討する。以上の結果から,擬似ラベルと擬似ラベルの学習は最適分類性能を実現するが,擬似ラベルの偏りは小さいことが示唆された。
論文参考訳（メタデータ） (2024-04-10T09:48:52Z)
Evaluating the Fairness of the MIMIC-IV Dataset and a Baseline Algorithm: Application to the ICU Length of Stay Prediction [65.268245109828]
本稿では、MIMIC-IVデータセットを用いて、滞在時間を予測するXGBoostバイナリ分類モデルにおける公平性とバイアスについて検討する。この研究は、人口統計属性にわたるデータセットのクラス不均衡を明らかにし、データ前処理と特徴抽出を採用する。この論文は、偏見を緩和するための公正な機械学習技術と、医療専門家とデータサイエンティストの協力的な努力の必要性について結論付けている。
論文参考訳（メタデータ） (2023-12-31T16:01:48Z)
An AI-Guided Data Centric Strategy to Detect and Mitigate Biases in Healthcare Datasets [32.25265709333831]
我々は、小さなサンプルサイズ(AEquity)で異なるグループをいかに容易に学習するかを調査することによって、データセットバイアスを評価するために、データ中心、モデルに依存しないタスク非依存のアプローチを生成する。次に、サブポピュレーション全体にわたるAEq値の体系的分析を適用し、医療における2つの既知の事例において、人種的偏見の特定と顕在化を図った。 AEqは、医療データセットのバイアスを診断し、修正することで、エクイティの前進に適用できる、新しく広く適用可能なメトリクスである。
論文参考訳（メタデータ） (2023-11-06T17:08:41Z)
An Evaluation of Machine Learning Approaches for Early Diagnosis of Autism Spectrum Disorder [0.0]
自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。本研究は,診断プロセスの強化と自動化を目的として,多様な機械学習手法を用いて重要なASD特性を同定する。
論文参考訳（メタデータ） (2023-09-20T21:23:37Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Auditing ICU Readmission Rates in an Clinical Database: An Analysis of Risk Factors and Clinical Outcomes [0.0]
本研究では,30日間の読解問題における臨床データ分類のための機械学習パイプラインを提案する。公正監査は、平等機会、予測パリティ、偽陽性率パリティ、偽陰性率パリティ基準の格差を明らかにする。この研究は、人工知能(AI)システムのバイアスと公平性に対処するために、研究者、政策立案者、実践者の協力的努力の必要性を示唆している。
論文参考訳（メタデータ） (2023-04-12T17:09:38Z)
Clinical Deterioration Prediction in Brazilian Hospitals Based on Artificial Neural Networks and Tree Decision Models [56.93322937189087]
超強化ニューラルネットワーク(XBNet)は臨床劣化(CD)を予測するために用いられる XGBoostモデルはブラジルの病院のデータからCDを予測する最良の結果を得た。
論文参考訳（メタデータ） (2022-12-17T23:29:14Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。