論文の概要: Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2409.07424v1
- Date: Wed, 11 Sep 2024 17:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:41:10.289882
- Title: Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation
- Title(参考訳): フェア・ヘルス・レコメンデーションに向けて : Word Sense Disambiguation による情報的未偏見サンプルの発見
- Authors: Gavin Butts, Pegah Emdad, Jethro Lee, Shannon Song, Chiman Salavati, Willmar Sosa Diaz, Shiri Dori-Hacohen, Fabricio Murai,
- Abstract要約: LLMを含むNLPモデルを用いて,医療カリキュラムのバイアス検出に取り組む。
大規模コーパスからの偏見を医学専門家が注釈した4,105点の抜粋を含む金標準データセットで評価した。
- 参考スコア(独自算出の注目度): 3.328297368052458
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There have been growing concerns around high-stake applications that rely on models trained with biased data, which consequently produce biased predictions, often harming the most vulnerable. In particular, biased medical data could cause health-related applications and recommender systems to create outputs that jeopardize patient care and widen disparities in health outcomes. A recent framework titled Fairness via AI posits that, instead of attempting to correct model biases, researchers must focus on their root causes by using AI to debias data. Inspired by this framework, we tackle bias detection in medical curricula using NLP models, including LLMs, and evaluate them on a gold standard dataset containing 4,105 excerpts annotated by medical experts for bias from a large corpus. We build on previous work by coauthors which augments the set of negative samples with non-annotated text containing social identifier terms. However, some of these terms, especially those related to race and ethnicity, can carry different meanings (e.g., "white matter of spinal cord"). To address this issue, we propose the use of Word Sense Disambiguation models to refine dataset quality by removing irrelevant sentences. We then evaluate fine-tuned variations of BERT models as well as GPT models with zero- and few-shot prompting. We found LLMs, considered SOTA on many NLP tasks, unsuitable for bias detection, while fine-tuned BERT models generally perform well across all evaluated metrics.
- Abstract(参考訳): バイアス付きデータでトレーニングされたモデルに依存し、結果としてバイアス付き予測が生まれ、しばしば最も脆弱なアプリケーションにダメージを与えるという、ハイリスクなアプリケーションに関する懸念が高まっている。
特に、偏りのある医療データは、健康関連のアプリケーションやレコメンデーションシステムに、患者のケアを危険にさらすアウトプットを作成し、健康結果の格差を拡大させる可能性がある。
モデルバイアスを正そうとする代わりに、研究者はAIを使ってデータをデバイアスすることで根本原因に集中する必要がある、とFairness via AIという最近のフレームワークは主張している。
この枠組みに着想を得て, LLMを含むNLPモデルを用いた医療カリキュラムのバイアス検出に取り組み, 大規模コーパスからのバイアスに対して, 医療専門家が注釈した4,105点の抜粋を含む金標準データセットを用いて評価を行った。
共著者による以前の研究に基づいて、社会的識別子の項を含む注釈のないテキストで、負のサンプルの集合を増補する。
しかしながら、これらの用語のいくつか、特に人種や民族に関する用語は、異なる意味(例えば「脊髄の白い物質」)を持つことができる。
この問題に対処するために,無関係な文を取り除き,データセットの質を高めるためにWord Sense Disambiguationモデルを提案する。
次に、ゼロショットプロンプトと少数ショットプロンプトを持つGPTモデルとともに、BERTモデルの微調整されたバリエーションを評価する。
LLMは、多くのNLPタスクにおいてSOTAとみなすが、バイアス検出には適さない。
関連論文リスト
- GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes [2.2162879952427343]
本稿では,バイアス検出の革新的なアプローチであるGAS-Netを紹介する。
GUS-Netは、(G)エナラライゼーション、(U)nfairness、(S)tereotypesの3つの重要な種類のバイアスに焦点を当てている。
本手法は,事前学習したモデルの文脈エンコーディングを組み込むことにより,従来のバイアス検出手法を強化する。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Reducing Biases towards Minoritized Populations in Medical Curricular Content via Artificial Intelligence for Fairer Health Outcomes [8.976475688579221]
BRICCは、機械学習を用いて医療の生体情報を軽減するための第一級イニシアチブである。
金標準のBRICCデータセットは数年かけて開発され、12Kページ以上の教材が含まれている。
包括的コーディングガイドラインに従って、医療専門家は慎重にこれらの文書にバイアスを付与した。
論文 参考訳(メタデータ) (2024-05-21T04:11:18Z) - Medical Image Debiasing by Learning Adaptive Agreement from a Biased
Council [8.530912655468645]
ディープラーニングは、データセットバイアスによって得られたショートカットを学習する傾向があります。
その重要性にもかかわらず、データセットバイアスに対処する医療画像分類領域では、多くの研究が行われている。
本稿では,バイアスラベルに依存しないバイアス緩和フレームワークであるバイアスド・カウンシル(Ada-ABC)からの学習適応合意を提案する。
論文 参考訳(メタデータ) (2024-01-22T06:29:52Z) - Current Topological and Machine Learning Applications for Bias Detection
in Text [4.799066966918178]
本研究はRedditBiasデータベースを用いてテキストバイアスの分析を行う。
BERTおよびRoBERTaの変種を含む4つの変圧器モデルについて検討した。
発見によるとBERT、特にミニBERTはバイアス分類に優れており、多言語モデルは遅延している。
論文 参考訳(メタデータ) (2023-11-22T16:12:42Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Interpretable bias mitigation for textual data: Reducing gender bias in
patient notes while maintaining classification performance [0.11545092788508224]
2つの臨床ノートデータセットから性別付き言語を識別・除去する。
データ拡張による低~中レベルのバイアス除去のための健康状態分類タスクの最小劣化を示す。
本研究は,自然言語処理パイプラインにおけるバイアスを識別・低減するために,データ拡張を用いた解釈可能なアプローチを概説する。
論文 参考訳(メタデータ) (2021-03-10T03:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。