Fugu-MT 論文翻訳(概要): Calibrated? Not for Everyone: How Sexual Orientation and Religious Markers Distort LLM Accuracy and Confidence in Medical QA

論文の概要: Calibrated? Not for Everyone: How Sexual Orientation and Religious Markers Distort LLM Accuracy and Confidence in Medical QA

arxiv url: http://arxiv.org/abs/2604.17316v1
Date: Sun, 19 Apr 2026 08:11:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.459819
Title: Calibrated? Not for Everyone: How Sexual Orientation and Religious Markers Distort LLM Accuracy and Confidence in Medical QA
Title（参考訳）: 医療QAにおける性的指向と宗教的マーカーがLCMの正確さと信頼を歪めているか
Authors: Alberto Testoni, Iacer Calixto,
Abstract要約: 患者の社会的記述子は不確実性信号とモデル精度を歪めます。ホモセクシャル」マーカーは、常にパフォーマンス低下を誘発し、交叉のアイデンティティは、校正に対する慣用的かつ非付加的な害を生み出す。
参考スコア（独自算出の注目度）: 5.307797621937223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Safe clinical deployment of Large Language Models (LLMs) requires not only high accuracy but also robust uncertainty calibration to ensure models defer to clinicians when appropriate. Our paper investigates how social descriptors of a patient (specifically sexual orientation and religious affiliation) distort these uncertainty signals and model accuracy. Evaluating nine general-purpose and biomedical LLMs on 2,364 medical questions and their counterfactual variants, we demonstrate that identity markers cause a "calibration crisis". "Homosexual" markers consistently trigger performance drops, and intersectional identities produce idiosyncratic, non-additive harms to calibration. Moreover, a clinician-validated case study in an open-ended generation setting confirms that these failures are not an artifact of the multiple-choice format. Our results demonstrate that the presence of social identity cues does not merely shift predictions; it affects the reliability of confidence signals, posing a significant risk to equitable care and safe deployment in confidence-based clinical workflows.
Abstract（参考訳）: LLM(Large Language Models)の安全な臨床展開には、高い精度だけでなく、信頼性の高い不確実性校正が必要である。本稿では,患者の社会的記述者(特に性的指向と宗教的関連)が,これらの不確実性信号とモデル精度を歪めているかを検討する。 2,364 の医学的質問に対する 9 つの汎用的・生物医学的 LLM の評価を行い, アイデンティティマーカーが「校正危機」を引き起こすことを示した。ホモセクシャル」マーカーは、常にパフォーマンス低下を誘発し、交叉のアイデンティティは、校正に対する慣用的かつ非付加的な害を生み出す。さらに、オープンエンド世代設定における臨床正当性ケーススタディでは、これらの失敗が多重選択フォーマットの成果物ではないことが確認されている。以上の結果から,社会的アイデンティティ・キューの存在は,単に予測をシフトさせるだけでなく,信頼性信号の信頼性に影響を与え,適切なケアと信頼性に基づく臨床ワークフローの安全な展開に重大なリスクをもたらすことが示唆された。

関連論文リスト

CURA: Clinical Uncertainty Risk Alignment for Language Model-Based Risk Prediction [10.129412789850239]
本稿では,臨床用LMに基づくリスク推定と,個々のエラー確率とコホートレベルのあいまいさを一致させる枠組みを提案する。 MIMIC-IV 臨床リスク予測タスクの実験では、CURA は差別を実質的に損なうことなくキャリブレーションの指標を一貫して改善している。
論文参考訳（メタデータ） (2026-04-16T05:58:37Z)
Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA [0.0]
マルチエージェントフレームワークはドメイン固有の特殊エージェントとTwo-Phase VerificationとS-Score Weighted Fusionを組み合わせたものだ。 4つの専門エージェントがQwen2.5-7B-Instructを使用して独立した診断を生成する。 Sスコアは最終回答を選択する重み付き融合戦略を推進し、信頼性を報告している。
論文参考訳（メタデータ） (2026-03-25T16:22:53Z)
Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。 GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文参考訳（メタデータ） (2026-03-03T09:36:43Z)
Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。 LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文参考訳（メタデータ） (2025-07-30T08:44:22Z)
Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文参考訳（メタデータ） (2023-01-01T05:02:46Z)
Bayesian autoencoders with uncertainty quantification: Towards trustworthy anomaly detection [78.24964622317634]
本研究では, ベイズオートエンコーダ (BAEs) の定式化により, 全体の異常不確かさを定量化する。不確実性の質を評価するために,不確実性の予測を拒否するオプションを追加して,異常を分類する作業を検討する。本実験は,BAEと総異常不確かさが,ベンチマークデータセットと製造用実データセットのセットに与える影響を実証するものである。
論文参考訳（メタデータ） (2022-02-25T12:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。