論文の概要: Adapting Large Language Models to Mitigate Skin Tone Biases in Clinical Dermatology Tasks: A Mixed-Methods Study
- arxiv url: http://arxiv.org/abs/2510.00055v1
- Date: Sun, 28 Sep 2025 09:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.145523
- Title: Adapting Large Language Models to Mitigate Skin Tone Biases in Clinical Dermatology Tasks: A Mixed-Methods Study
- Title(参考訳): 皮膚科領域における皮膚トーンビアーゼの緩和のための大規模言語モデルへの適応 : 混合手法による検討
- Authors: Kiran Nijjer, Ryan Bui, Derek Jiu, Adnan Ahmed, Peter Wang, Benjamin Liu, Kevin Zhu, Lilly Zhu,
- Abstract要約: 皮膚疾患に対するSkinGPT-4(SkinGPT-4)の性能バイアスについて検討した。
我々は、SkinGPT-4のバックボーンを利用して、カスタム皮膚疾患分類タスクのための微調整モデルを開発した。
- 参考スコア(独自算出の注目度): 3.0153109054210474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SkinGPT-4, a large vision-language model, leverages annotated skin disease images to augment clinical workflows in underserved communities. However, its training dataset predominantly represents lighter skin tones, limiting diagnostic accuracy for darker tones. Here, we evaluated performance biases in SkinGPT-4 across skin tones on common skin diseases, including eczema, allergic-contact dermatitis, and psoriasis using the open-sourced SCIN dataset. We leveraged the SkinGPT-4 backbone to develop finetuned models for custom skin disease classification tasks and explored bias mitigation strategies. Clinical evaluation by board-certified dermatologists on six relevant skin diseases from 300 SCIN cases assessed images for diagnostic accuracy, informativity, physician utility, and patient utility. Model fairness metrics, including demographic parity and equalized odds, were calculated across skin tones. SkinGPT-4 achieved an average demographic parity of 0.10 across Fitzpatrick types, with notable differences of 0.10-0.15 between lightest and darkest tones across evaluation metrics. Model hallucinations in artifacts and anatomy occurred at a rate of 17.8. Our customized models achieved average F1, precision, and AUROC of 0.75, 0.78, and 0.78 across visually similar disease pairs. Fairness analysis showed an average demographic parity of 0.75, with a maximum disparity of 0.21 across skin tones. The best model achieved parity scores of 0.83, 0.83, 0.76, 0.89, 0.90, and 0.90 for Fitzpatrick I-VI, indicating robust fairness. Large language models such as SkinGPT-4 showed weaker performance on darker tones. Model biases exist across evaluation criteria, and hallucinations may affect diagnostic efficacy. These findings demonstrate the efficacy of training accurate, fair models using existing backbones for custom skin disease classification.
- Abstract(参考訳): 大規模な視覚言語モデルであるSkinGPT-4は、注釈付き皮膚疾患の画像を利用して、保存されていないコミュニティにおける臨床ワークフローを増強する。
しかし、トレーニングデータセットは主に、より軽い皮膚のトーンを表現し、より暗いトーンの診断精度を制限する。
そこで本研究では, 皮膚トーンのSkinGPT-4が, エコゼマ, アレルギー性皮膚炎, 乾皮症などの一般的な皮膚疾患に与える影響について, SCINデータセットを用いて検討した。
我々は、SkinGPT-4のバックボーンを利用して、カスタムスキン病分類タスクの微調整モデルを開発し、バイアス軽減戦略を探求した。
SCIN300例の皮膚疾患に関する皮膚科医による臨床評価では, 診断精度, 情報伝達能, 医用有用性, 患者有用性について画像評価を行った。
モデルフェアネスの指標は、人口比率や均等化オッズなどであり、スキントーン全体で計算された。
SkinGPT-4は、フィッツパトリック型で平均0.10であり、評価指標でもっとも軽い音色と暗い音色の差は0.10-0.15である。
人工物と解剖学のモデル幻覚は17.8の速度で発生した。
我々のカスタマイズされたモデルは、視覚的に類似した疾患対で平均F1、精度、AUROCの0.75、0.78、0.78を達成した。
フェアネス分析では、平均的な人口比率は0.75で、皮膚のトーン全体での最大格差は0.21であった。
ベストモデルはフィッツパトリックI-VIで0.83、0.83、0.76、0.89、0.90、0.90のパリティスコアを得た。
SkinGPT-4のような大きな言語モデルは、より暗い音色でより弱い性能を示した。
モデルバイアスは評価基準を越えて存在し、幻覚は診断効果に影響を与える可能性がある。
これらの結果から,既存の皮膚疾患分類用バックボーンを用いたトレーニング精度,公正なモデルの有効性が示唆された。
関連論文リスト
- TrustSkin: A Fairness Pipeline for Trustworthy Facial Affect Analysis Across Skin Tone [4.847470451539328]
本研究は,広範に使用されている個別型調アングル(ITA)と,明度(L*$)とHue(H*$)に基づく知覚的根拠に基づく代替手段の2つの目的皮膚音分類法を比較した。
AffectNetとMobileNetをベースとしたモデルを用いて,各手法で定義したスキントーン群間の公平性を評価する。
論文 参考訳(メタデータ) (2025-05-27T02:31:08Z) - Are generative models fair? A study of racial bias in dermatological image generation [15.812312064457865]
臨床皮膚学における生成モデルの妥当性を,人種的偏見から評価した。
Fitzpatrick17kデータセットを用いて、人種的バイアスがこれらのモデルの表現と性能にどのように影響するかを調べる。
論文 参考訳(メタデータ) (2025-01-20T21:24:15Z) - FairSkin: Fair Diffusion for Skin Disease Image Generation [54.29840149709033]
拡散モデル (DM) は, 合成医用画像の生成において主要な手法となっているが, 臨界二倍偏差に悩まされている。
このようなバイアスを3段階のリサンプリング機構によって緩和する新しいDMフレームワークであるFairSkinを提案する。
本手法は, 画像の多様性と品質を著しく向上させ, 臨床環境における皮膚疾患の検出精度の向上に寄与する。
論文 参考訳(メタデータ) (2024-10-29T21:37:03Z) - Evaluating Machine Learning-based Skin Cancer Diagnosis [0.0]
この研究は、MobileNetベースのモデルとカスタムCNNモデルの2つの畳み込みニューラルネットワークアーキテクチャを評価する。
どちらのモデルも、皮膚病変を7つのカテゴリに分類し、危険病変と良性病変を区別する能力について評価されている。
この研究は、モデルが説明可能性を示す一方で、異なる肌のトーンの公平性を確保するためにさらなる開発が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-09-04T02:44:48Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - DDI-CoCo: A Dataset For Understanding The Effect Of Color Contrast In
Machine-Assisted Skin Disease Detection [51.92255321684027]
皮膚のトーンと色差効果の相互作用について検討し,色差が皮膚のトーン間のモデル性能バイアスの新たな原因となる可能性が示唆された。
我々の研究は皮膚疾患の検出を改善するために皮膚科のAIに補完的な角度を提供する。
論文 参考訳(メタデータ) (2024-01-24T07:45:24Z) - How Does Pruning Impact Long-Tailed Multi-Label Medical Image
Classifiers? [49.35105290167996]
プルーニングは、ディープニューラルネットワークを圧縮し、全体的なパフォーマンスに大きな影響を及ぼすことなく、メモリ使用量と推論時間を短縮する強力なテクニックとして登場した。
この研究は、プルーニングがモデル行動に与える影響を理解するための第一歩である。
論文 参考訳(メタデータ) (2023-08-17T20:40:30Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - EdgeMixup: Improving Fairness for Skin Disease Classification and
Segmentation [9.750368551427494]
皮膚病変は、広範囲の感染症やその他の病気の早期の指標である可能性がある。
深層学習(DL)モデルを用いた皮膚病変の診断は,プレスクリーニング患者を支援できる可能性が高い。
これらのモデルは、トレーニングデータに固有のバイアスを学習することが多く、ライトやダークスキンのトーンを持つ人の診断において、パフォーマンスのギャップを生じさせる可能性がある。
論文 参考訳(メタデータ) (2022-02-28T15:33:31Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。