Fugu-MT 論文翻訳(概要): MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning

論文の概要: MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning

arxiv url: http://arxiv.org/abs/2510.12818v1
Date: Thu, 09 Oct 2025 22:12:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-16 20:13:28.325543
Title: MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning
Title（参考訳）: MEDEQUALQA: 逆推論によるLCMのバイアス評価
Authors: Rajarshi Ghosh, Abhay Gupta, Hudson McBride, Anurag Vaidya, Faisal Mahmood,
Abstract要約: 重篤な症状と症状を一定に保ちながら,患者代名詞のみを摂動する反ファクト・ベンチマークであるMEDEQUALQAを紹介する。我々は、GPT-4.1モデルを評価し、代名詞の変種間の安定性を測定するために、推論トレース間のセマンティックテキスト類似性(STS)を計算する。以上の結果から,総じて高い類似性(平均STS >0.80)を示した。
参考スコア（独自算出の注目度）: 7.167933033102407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly deployed in clinical decision support, yet subtle demographic cues can influence their reasoning. Prior work has documented disparities in outputs across patient groups, but little is known about how internal reasoning shifts under controlled demographic changes. We introduce MEDEQUALQA, a counterfactual benchmark that perturbs only patient pronouns (he/him, she/her, they/them) while holding critical symptoms and conditions (CSCs) constant. Each clinical vignette is expanded into single-CSC ablations, producing three parallel datasets of approximately 23,000 items each (69,000 total). We evaluate a GPT-4.1 model and compute Semantic Textual Similarity (STS) between reasoning traces to measure stability across pronoun variants. Our results show overall high similarity (mean STS >0.80), but reveal consistent localized divergences in cited risk factors, guideline anchors, and differential ordering, even when final diagnoses remain unchanged. Our error analysis highlights certain cases in which the reasoning shifts, underscoring clinically relevant bias loci that may cascade into inequitable care. MEDEQUALQA offers a controlled diagnostic setting for auditing reasoning stability in medical AI.
Abstract（参考訳）: 大規模言語モデル(LLM)は、臨床的な意思決定支援にますます導入されているが、微妙な人口統計学的手がかりは、彼らの推論に影響を及ぼす可能性がある。これまでの研究は、患者グループ間でのアウトプットの相違を文書化してきたが、内部理性の変化が制御された人口変動の下でどのように変化するかについてはほとんど分かっていない。患者代名詞(he/him, she/him, they/them)のみを摂動し,重篤な症状と症状(CSCs)を一定に保った反ファクトカル・ベンチマークであるMEDEQUALQAを紹介する。それぞれの臨床ヴィグネットは単一のCSCアブリケーションに拡張され、約23,000項目の3つの並列データセット(合計69,000件)が生成される。我々は、GPT-4.1モデルを評価し、代名詞の変種間の安定性を測定するために、推論トレース間のセマンティックテキスト類似性(STS)を計算する。以上の結果から, 最終診断結果が変わらず, リスクファクター, ガイドラインアンカー, ディファレンシャルオーダにおける一貫した局所的な発散が認められた。以上より, 臨床的に有意な偏見の座位が不平等なケアへと変化した事例を, 誤差分析により明らかにした。 MEDEQUALQAは、医療AIの推論安定性を監査するための制御された診断設定を提供する。

関連論文リスト

Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-07-27T16:48:53Z)
DeVisE: Behavioral Testing of Medical Large Language Models [14.832083455439749]
DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。我々はMIMIC-IVからICU排出音符のデータセットを構築した。汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
論文参考訳（メタデータ） (2025-06-18T10:42:22Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Interpretability of Uncertainty: Exploring Cortical Lesion Segmentation in Multiple Sclerosis [33.91263917157504]
不確実性定量化(UQ)は人工知能システムの信頼性を評価する上で重要である。本研究では,磁気共鳴画像における焦点病変分割のための深層学習モデルにおけるインスタンス単位の不確実性値の解釈可能性について検討する。
論文参考訳（メタデータ） (2024-07-08T09:13:30Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Structural-Based Uncertainty in Deep Learning Across Anatomical Scales: Analysis in White Matter Lesion Segmentation [8.64414399041931]
不確実性定量化(英: Uncertainty Quantification、UQ)は、ホワイトマター病変(WML)セグメンテーションの文脈における、自動ディープラーニング(DL)ツールの信頼性の指標である。我々は, 構造的予測の相違から, 病変や患者スケールの不確かさを定量化する尺度を開発した。 444例の多心MRIデータから, 病変のモデル誤差をより効果的に把握し, 患者規模を計測できることが示唆された。
論文参考訳（メタデータ） (2023-11-15T13:04:57Z)
Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文参考訳（メタデータ） (2023-01-01T05:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。