論文の概要: A Counterfactual LLM Framework for Detecting Human Biases: A Case Study of Sex/Gender in Emergency Triage
- arxiv url: http://arxiv.org/abs/2511.17124v1
- Date: Fri, 21 Nov 2025 10:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.972612
- Title: A Counterfactual LLM Framework for Detecting Human Biases: A Case Study of Sex/Gender in Emergency Triage
- Title(参考訳): ヒト・ビアーゼ検出のための非現実的LCMフレームワーク--緊急トライアージにおける性・性差の事例研究
- Authors: Ariel Guerra-Adames, Marta Avalos-Fernandez, Océane Dorémus, Leo Anthony Celi, Cédric Gil-Jardiné, Emmanuel Lagarde,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いて,ヒトの臨床的意思決定における性差を定量化するための,ドメインに依存しない新しい手法を提案する。
緊急トリアージについて検討し,ボルドー大学病院(フランス)への15万人以上の入院に対するアプローチを検証し,異なる言語,人口,医療システムでMIMIC-IVのサブセットを複製した。
ボルドーのコホートでは、同じプレゼンテーションが男性ではなく女性として提示された場合、平均で約2.1%、フランスでは国家非常用紙に拡大され、20,000人以上の低水準のプレゼンテーションに該当する。
- 参考スコア(独自算出の注目度): 1.9461694122897646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel, domain-agnostic counterfactual approach that uses Large Language Models (LLMs) to quantify gender disparities in human clinical decision-making. The method trains an LLM to emulate observed decisions, then evaluates counterfactual pairs in which only gender is flipped, estimating directional disparities while holding all other clinical factors constant. We study emergency triage, validating the approach on more than 150,000 admissions to the Bordeaux University Hospital (France) and replicating results on a subset of MIMIC-IV across a different language, population, and healthcare system. In the Bordeaux cohort, otherwise identical presentations were approximately 2.1% more likely to receive a lower-severity triage score when presented as female rather than male; scaled to national emergency volumes in France, this corresponds to more than 200,000 lower-severity assignments per year. Modality-specific analyses indicate that both explicit tabular gender indicators and implicit textual gender cues contribute to the disparity. Beyond emergency care, the approach supports bias audits in other settings (e.g., hiring, academic, and justice decisions), providing a scalable tool to detect and address inequities in real-world decision-making.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いて,ヒトの臨床的意思決定における性差を定量化するための,ドメインに依存しない新しい手法を提案する。
この方法は、LPMを訓練して観察された決定をエミュレートし、それから、性別のみを反転させる対物対を評価し、他のすべての臨床的要因を一定に保ちながら、方向性の相違を推定する。
緊急トリアージについて検討し,ボルドー大学病院(フランス)への15万人以上の入院に対するアプローチを検証し,異なる言語,人口,医療システムでMIMIC-IVのサブセットを複製した。
ボルドーのコホートでは、同じプレゼンテーションが男性ではなく女性として提示された場合、平均で約2.1%の低重度トリアージスコアを得られる傾向にあり、フランスの国家非常事態記録にスケールすると、これは毎年20,000件以上の低重度割り当てに相当する。
モダリティに特有な分析は、明示的な表層性指標と暗黙的なテキスト性指標の両方が相違に寄与していることを示している。
緊急ケア以外にも、他の設定(雇用、アカデミック、司法決定など)でのバイアス監査をサポートし、現実世界の意思決定の不平等を検出し、対処するためのスケーラブルなツールを提供する。
関連論文リスト
- Gender Bias in Large Language Models for Healthcare: Assignment Consistency and Clinical Implications [16.066280458640676]
大きな言語モデルの医療への統合は、臨床的な意思決定を強化することを約束している。
ジェンダーは長年、医師の行動や患者に影響を与えてきた。
一部のモデルは、患者の性別の解釈において、体系的な男女格差も示していた。
論文 参考訳(メタデータ) (2025-10-08T01:11:06Z) - Towards Fair Rankings: Leveraging LLMs for Gender Bias Detection and Measurement [6.92803536773427]
自然言語処理(NLP)と情報検索(IR)システムの社会的バイアスは、現在進行中の課題である。
我々は,大言語モデル(LLM)を利用して,通過ランクの性別バイアスを検出し,測定することで,この問題に対処することを目指している。
そこで我々は,既存の制約に対処するために,CWEx (Class-wise Weighted Exposure) という新しいジェンダーフェアネス尺度を導入する。
論文 参考訳(メタデータ) (2025-06-27T16:39:12Z) - A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection [3.874958704454859]
臨床テキストにおけるジェンダーベースのコンテンツ格差に対処するデータ中心型脱バイアスフレームワークを開発した。
我々のアプローチは、テキストで訓練されたAI医療モデルのバイアスを軽減する効果的な戦略を示す。
論文 参考訳(メタデータ) (2024-12-30T20:00:22Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。
本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。
このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文 参考訳(メタデータ) (2024-10-21T23:14:10Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。