論文の概要: Counterfactual Cultural Cues Reduce Medical QA Accuracy in LLMs: Identifier vs Context Effects
- arxiv url: http://arxiv.org/abs/2601.20102v1
- Date: Tue, 27 Jan 2026 22:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.685053
- Title: Counterfactual Cultural Cues Reduce Medical QA Accuracy in LLMs: Identifier vs Context Effects
- Title(参考訳): LLMの医学的QA精度を低下させる要因:識別と文脈効果
- Authors: Amirhossein Haji Mohammad Rezaei, Zahra Shakeri,
- Abstract要約: 持続的かつ公平な医療には、臨床的に正しい診断を変えない医療言語モデルが必要である。
我々は150のMedQAテスト項目を1650の変種に拡張する反ファクト的ベンチマークを導入する。
モデル全体では、文化的な手がかりは精度に大きく影響し、識別子とコンテキストが共起すると最大の劣化が生じる。
- 参考スコア(独自算出の注目度): 0.3125141879014581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engineering sustainable and equitable healthcare requires medical language models that do not change clinically correct diagnoses when presented with non-decisive cultural information. We introduce a counterfactual benchmark that expands 150 MedQA test items into 1650 variants by inserting culture-related (i) identifier tokens, (ii) contextual cues, or (iii) their combination for three groups (Indigenous Canadian, Middle-Eastern Muslim, Southeast Asian), plus a length-matched neutral control, where a clinician verified that the gold answer remains invariant in all variants. We evaluate GPT-5.2, Llama-3.1-8B, DeepSeek-R1, and MedGemma (4B/27B) under option-only and brief-explanation prompting. Across models, cultural cues significantly affect accuracy (Cochran's Q, $p<10^-14$), with the largest degradation when identifier and context co-occur (up to 3-7 percentage points under option-only prompting), while neutral edits produce smaller, non-systematic changes. A human-validated rubric ($κ=0.76$) applied via an LLM-as-judge shows that more than half of culturally grounded explanations end in an incorrect answer, linking culture-referential reasoning to diagnostic failure. We release prompts and augmentations to support evaluation and mitigation of culturally induced diagnostic errors.
- Abstract(参考訳): 持続可能で公平な医療には、非決定的な文化的情報を提示した場合、臨床的に正しい診断を変更しない医療言語モデルが必要である。
我々は,150のMedQAテスト項目を培養関連項目を挿入して1650の変種に拡張する反事実ベンチマークを導入する。
(i)識別子トークン
(二)文脈的手がかり、又は
(3)カナダ原産、中東ムスリム、東南アジアの3つのグループの組み合わせに加えて、臨床医がすべての変種において金の解答が不変であることを証明した。
GPT-5.2, Llama-3.1-8B, DeepSeek-R1, MedGemma (4B/27B) の評価を行った。
モデル全体では、文化的手がかりは精度に大きく影響し(CochranのQ, $p<10^-14$)、識別子とコンテキスト共起(オプションのみのプロンプトで最大3~7%のポイント)、中立的な編集はより小さく非体系的な変化をもたらす。
LLM-as-judgeを通じて適用された人間公認のルーリック(κ=0.76$)は、文化に根ざした説明の半数以上が誤った回答で終わることを示している。
文化的に誘発された診断エラーの評価と緩和を支援するためのプロンプトと拡張策をリリースする。
関連論文リスト
- M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Cross-Cultural Expert-Level Art Critique Evaluation with Vision-Language Models [4.317017868438435]
VLM(Vision-Language Models)は、視覚的知覚に優れるが、芸術における文化的意味を解釈する能力は、未検証のままである。
Tier Iは自動カバレッジとリスク指標をオフラインで計算する。
Tier IIIはTier IIアグリゲーションスコアを等調回帰によって人間の評価に分類し、152サンプルのホールトアウトセットでMAEを5.2%減少させる。
論文 参考訳(メタデータ) (2026-01-12T20:33:35Z) - MedRECT: A Medical Reasoning Benchmark for Error Correction in Clinical Texts [0.0]
大規模言語モデル (LLM) は医療応用における将来性を示すが, 臨床用テキストにおける誤りの検出と訂正能力は, 未評価のままである。
我々は,医療ミス処理を3つのサブタスクとして定式化する言語間ベンチマーク(日本語/英語)であるMedRECTを紹介する。
プロプライエタリ、オープンウェイト、理性家族にまたがる9つの現代LSMを評価した。
論文 参考訳(メタデータ) (2025-11-01T06:19:34Z) - MEDEQUALQA: Evaluating Biases in LLMs with Counterfactual Reasoning [7.167933033102407]
重篤な症状と症状を一定に保ちながら,患者代名詞のみを摂動する反ファクト・ベンチマークであるMEDEQUALQAを紹介する。
我々は、GPT-4.1モデルを評価し、代名詞の変種間の安定性を測定するために、推論トレース間のセマンティックテキスト類似性(STS)を計算する。
以上の結果から,総じて高い類似性(平均STS >0.80)を示した。
論文 参考訳(メタデータ) (2025-10-09T22:12:58Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Cultural Intelligence with CQ-Bench [23.91961633899227]
文化インテリジェンス(文化インテリジェンス、英: Cultural Intelligence、略称:CQ)とは、文化の文脈を理解する能力のこと。
既存の研究は、しばしば明示された文化的規範に焦点を当てるが、日々の会話でよく見られる微妙で暗黙的な価値を捉えることに失敗する。
自然会話の文脈から暗黙的な文化的価値を推測するLLMの能力を評価するために設計されたベンチマークであるCQBenchを紹介する。
論文 参考訳(メタデータ) (2025-04-01T18:54:47Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。