論文の概要: Auditing Significance, Metric Choice, and Demographic Fairness in Medical AI Challenges
- arxiv url: http://arxiv.org/abs/2512.19091v1
- Date: Mon, 22 Dec 2025 07:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.645546
- Title: Auditing Significance, Metric Choice, and Demographic Fairness in Medical AI Challenges
- Title(参考訳): 医療AIチャレンジにおける意義, メニュー選択, デモグラフィックフェアネスの検証
- Authors: Ariel Lubonja, Pedro R. A. S. Bassi, Wenxuan Li, Hualin Qiao, Randal Burns, Alan L. Yuille, Zongwei Zhou,
- Abstract要約: オープンな課題は、医療AIメソッドの比較ランキングのデファクトスタンダードになっています。
その重要性にもかかわらず、医療AIのリーダーボードには3つの永続的な制限がある。
RankInsightは、これらの制限に対処するためのオープンソースのツールキットです。
- 参考スコア(独自算出の注目度): 44.72771355213698
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open challenges have become the de facto standard for comparative ranking of medical AI methods. Despite their importance, medical AI leaderboards exhibit three persistent limitations: (1) score gaps are rarely tested for statistical significance, so rank stability is unknown; (2) single averaged metrics are applied to every organ, hiding clinically important boundary errors; (3) performance across intersecting demographics is seldom reported, masking fairness and equity gaps. We introduce RankInsight, an open-source toolkit that seeks to address these limitations. RankInsight (1) computes pair-wise significance maps that show the nnU-Net family outperforms Vision-Language and MONAI submissions with high statistical certainty; (2) recomputes leaderboards with organ-appropriate metrics, reversing the order of the top four models when Dice is replaced by NSD for tubular structures; and (3) audits intersectional fairness, revealing that more than half of the MONAI-based entries have the largest gender-race discrepancy on our proprietary Johns Hopkins Hospital dataset. The RankInsight toolkit is publicly released and can be directly applied to past, ongoing, and future challenges. It enables organizers and participants to publish rankings that are statistically sound, clinically meaningful, and demographically fair.
- Abstract(参考訳): オープンな課題は、医療AIメソッドの比較ランキングのデファクトスタンダードになっています。
その重要性にもかかわらず、医療AIのリーダーボードには、3つの永続的な制限がある:(1)スコアギャップは統計的重要性のために検査されることは稀であり、ランク安定性は未知である; (2) 単一の平均メトリクスは、臨床的に重要な境界誤差を隠蔽し、(3) 交差する人口間のパフォーマンスを報告せず、公平さと株式格差を隠蔽する。
RankInsightは、これらの制限に対処するためのオープンソースのツールキットです。
RankInsight (1) は, nnU-Net ファミリーが, ビジョン・ランゲージや monAI を高い統計的確度で上回り, 2) 臓器に適した指標でリーダボードを再計算し, Dice が管状構造の NSD に置き換わる際に上位4モデルの順序を逆転させ, 3) モナカイ ベースのエントリの半数以上が, プロプライエタリな Johns Hopkins 病院のデータセット上で, 男女差が最も大きいことを明らかにした。
RankInsightツールキットは公開されており、過去、現在、将来の課題に直接適用することができる。
主催者や参加者は統計的に健全で臨床的に意味があり、人口統計学的に公正なランキングを公表することができる。
関連論文リスト
- Medical Imaging AI Competitions Lack Fairness [50.895929923643905]
課題データセットが現実の臨床的多様性を代表するものなのか、FAIR原則に従ってアクセス可能で法的に再利用可能なものなのか、という2つの相補的な側面に沿って公正性を評価する。
本研究の結果は, 地理的位置, モダリティ, 問題型関連バイアスなどのデータセット構成に有意な偏りがみられ, 現在のベンチマークは実世界の臨床多様性を十分に反映していないことが示唆された。
これらの欠点は、ベンチマークエコシステムの基本的な制限を明らかにし、リーダボードの成功と臨床関連性との間の断絶を浮き彫りにします。
論文 参考訳(メタデータ) (2025-12-19T13:48:10Z) - An External Fairness Evaluation of LinkedIn Talent Search [55.18656975953939]
LinkedInのTalent Searchランキングシステムのバイアスに対する、独立したサードパーティによる監査を行います。
我々は、性別と人種の2つの属性にまたがる潜在的なランキングバイアスに焦点を当てている。
我々の分析は、初期階級の少数派を過小評価していることを示している。
論文 参考訳(メタデータ) (2025-11-13T19:10:49Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - LNQ 2023 challenge: Benchmark of weakly-supervised techniques for mediastinal lymph node quantification [20.587781330491122]
縦隔リンパ節定量化(LNQ)課題は,第26回医用画像コンピューティングとコンピュータ支援介入に関する国際会議(MICCAI 2023)と連携して実施された。
この課題は、新しい部分的に注釈付けされたデータセットと堅牢な評価フレームワークを提供することで、弱教師付きセグメンテーション手法を推進することを目的としていた。
結果は、弱教師付きアプローチのポテンシャルと現在の限界の両方を強調した。
論文 参考訳(メタデータ) (2024-08-19T15:11:01Z) - The Limits of Fair Medical Imaging AI In The Wild [43.97266228706059]
医療用AIが人口統計エンコーディングをどのように利用するかを検討する。
医療画像AIは、疾患分類において、人口動態のショートカットを利用することを確認した。
人口統計属性のエンコーディングが少ないモデルは、しばしば「グローバルに最適」であることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:59:50Z) - Auditing Algorithmic Fairness in Machine Learning for Health with
Severity-Based LOGAN [70.76142503046782]
臨床予測タスクにおいて,局所バイアスを自動検出するSLOGANを用いて,機械学習ベースの医療ツールを補足することを提案する。
LOGANは、患者の重症度と過去の医療史における集団バイアス検出を文脈化することにより、既存のツールであるLOcal Group biAs detectioNに適応する。
SLOGANは, クラスタリング品質を維持しながら, 患者群の75%以上において, SLOGANよりも高い公平性を示す。
論文 参考訳(メタデータ) (2022-11-16T08:04:12Z) - IA-GCN: Interpretable Attention based Graph Convolutional Network for
Disease prediction [47.999621481852266]
タスクに対する入力特徴の臨床的関連性を解釈する,解釈可能なグラフ学習モデルを提案する。
臨床シナリオでは、そのようなモデルは、臨床専門家が診断および治療計画のためのより良い意思決定を支援することができる。
本研究では,Tadpoleの平均精度が3.2%,UKBBジェンダーが1.6%,UKBB年齢予測タスクが2%と,比較方法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-29T13:04:02Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。