論文の概要: In the Name of Fairness: Assessing the Bias in Clinical Record
De-identification
- arxiv url: http://arxiv.org/abs/2305.11348v2
- Date: Wed, 3 Jan 2024 04:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:08:40.337941
- Title: In the Name of Fairness: Assessing the Bias in Clinical Record
De-identification
- Title(参考訳): フェアネスの名において:臨床記録の同定におけるバイアスの評価
- Authors: Yuxin Xiao, Shulammite Lim, Tom Joseph Pollard, Marzyeh Ghassemi
- Abstract要約: 本研究は, 大規模実験分析により, 臨床ノートに記載された名前の非識別システムのバイアスについて検討した。
以上の結果から,ほとんどの手法では,人口分布の大部分が統計的に有意な性能差があることが判明した。
特定されたギャップを緩和するために,臨床状況と多様な名前の微調整による簡易かつ方法に依存しない解法を提案する。
- 参考スコア(独自算出の注目度): 11.794861201300826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data sharing is crucial for open science and reproducible research, but the
legal sharing of clinical data requires the removal of protected health
information from electronic health records. This process, known as
de-identification, is often achieved through the use of machine learning
algorithms by many commercial and open-source systems. While these systems have
shown compelling results on average, the variation in their performance across
different demographic groups has not been thoroughly examined. In this work, we
investigate the bias of de-identification systems on names in clinical notes
via a large-scale empirical analysis. To achieve this, we create 16 name sets
that vary along four demographic dimensions: gender, race, name popularity, and
the decade of popularity. We insert these names into 100 manually curated
clinical templates and evaluate the performance of nine public and private
de-identification methods. Our findings reveal that there are statistically
significant performance gaps along a majority of the demographic dimensions in
most methods. We further illustrate that de-identification quality is affected
by polysemy in names, gender context, and clinical note characteristics. To
mitigate the identified gaps, we propose a simple and method-agnostic solution
by fine-tuning de-identification methods with clinical context and diverse
names. Overall, it is imperative to address the bias in existing methods
immediately so that downstream stakeholders can build high-quality systems to
serve all demographic parties fairly.
- Abstract(参考訳): オープンサイエンスと再現可能な研究にはデータ共有が不可欠であるが、臨床データの法的共有には、電子健康記録から保護された健康情報を取り除く必要がある。
このプロセスはde-identificationとして知られ、多くの商用およびオープンソースシステムで機械学習アルゴリズムを使用することでしばしば達成される。
これらのシステムは, 平均的に有意な結果を示しているが, 異なる集団間での成績のばらつきについては, 十分に検討されていない。
本研究は, 大規模実験分析を用いて, 臨床メモにおける名前の同定システムに対するバイアスについて検討する。
これを実現するために、性別、人種、名前の人気、そして人気の10年という4つの年齢層で異なる16の名前セットを作成します。
それらの名称を手作業による治験テンプレート100個に挿入し,9つの公衆・個人識別手法の性能評価を行った。
以上の結果から,ほとんどの方法において,統計学的に有意な性能差があることが判明した。
さらに, 名前, 性別, 臨床ノートの特徴において, 脱識別品質がポリセミーの影響を受けていることを示す。
特定されたギャップを緩和するために,臨床状況と多様な名前の微調整による簡易かつ方法に依存しない解法を提案する。
全体としては、下流の利害関係者がすべての人口構成政党に公平にサービスを提供する高品質なシステムを構築することができるように、既存の方法のバイアスに即座に対処することが不可欠である。
関連論文リスト
- DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - Multi-task Explainable Skin Lesion Classification [54.76511683427566]
少ないラベル付きデータでよく一般化する皮膚病変に対する数発のショットベースアプローチを提案する。
提案手法は,アテンションモジュールや分類ネットワークとして機能するセグメンテーションネットワークの融合を含む。
論文 参考訳(メタデータ) (2023-10-11T05:49:47Z) - Inferring gender from name: a large scale performance evaluation study [4.934579134540613]
研究者は、簡単に利用可能な情報から、主に人物の名前から性別を推測する必要がある。
名前と性別の推論は、アルゴリズムのアプローチとソフトウェア製品の領域を継続的に発展させてきた。
我々は,既存手法を大規模に評価し,名前と性別の推論を行う。
既存のどのアプローチよりも優れたパフォーマンスを実現する2つの新しいハイブリッドアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-22T13:38:45Z) - Fairness Index Measures to Evaluate Bias in Biometric Recognition [0.0]
人口統計学的公正性の定量的評価は、生体計測応用における人口統計学的バイアスの理解、評価、緩和に向けた重要なステップである。
一般的な生体認証システムの人口統計学的公正性を評価するために,スコア分布の統計的特性に基づく複数の尺度を導入する。
論文 参考訳(メタデータ) (2023-06-19T13:28:37Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Clinical trial site matching with improved diversity using fair policy
learning [56.01170456417214]
我々は,臨床治験記述を潜在的な試験現場のランクリストにマッピングするモデルを学習する。
既存のフェアネスフレームワークとは異なり、各トライアルサイトのグループメンバーシップは非バイナリである。
このようなマルチグループメンバーシップシナリオに対処するために、人口統計学的妥当性に基づく公平性基準を提案する。
論文 参考訳(メタデータ) (2022-04-13T16:35:28Z) - Classifying Cyber-Risky Clinical Notes by Employing Natural Language
Processing [9.77063694539068]
近年、アメリカ合衆国内の一部の州では、患者が臨床ノートに自由にアクセスできるように求めている。
本研究は,臨床ノートにおけるセキュリティ・プライバシリスクの特定方法について検討する。
論文 参考訳(メタデータ) (2022-03-24T00:36:59Z) - Risk of Training Diagnostic Algorithms on Data with Demographic Bias [0.5599792629509227]
医用画像解析アプリケーションにおけるMICCAI 2018の実践を調査するために,MICCAI 2018の手順を調査した。
意外なことに、診断に焦点を当てた論文では、使用されるデータセットの人口統計がほとんど書かれていないことが判明した。
本研究では,非偏りのある特徴を,対向的な学習環境において,人口統計変数を明示的に使用することにより学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-20T13:51:01Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。