論文の概要: Artificial Intolerance: Stigmatizing Language in Clinical Documentation Skews Large Language Model Decision-Making
- arxiv url: http://arxiv.org/abs/2605.17228v1
- Date: Sun, 17 May 2026 02:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.740086
- Title: Artificial Intolerance: Stigmatizing Language in Clinical Documentation Skews Large Language Model Decision-Making
- Title(参考訳): 人工的耐久性: 大規模言語モデル決定作業による臨床文書化における言語解析
- Authors: Jen-tse Huang, Didi Zhou, Faith Kamau, Amy Oh, Anne R. Links, Mark Dredze, Mary Catherine Beach, Somnath Saha,
- Abstract要約: 大規模言語モデル(LLM)は、臨床上の意思決定支援や医療ドキュメントなど、高度な領域にますます展開されている。
臨床テキストの処理において、フロンティアLSMが人間のバイアスを継承し、伝播するかどうかを検討する。
- 参考スコア(独自算出の注目度): 13.79732306725696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in high-stakes domains such as clinical decision support and medical documentation. However, the robustness of these models against subtle linguistic variations, specifically stigmatizing language (SL) commonly found in human-authored clinical notes, remains critically under-explored. In this work, we investigate whether frontier LLMs inherit and propagate this human bias when processing clinical text. We systematically evaluate nine frontier LLMs across four stigmatized medical conditions, utilizing clinical vignettes injected with varying intensities and phenotypes of SL (doubt, blame, and maligning). Our results demonstrate that all evaluated models exhibit substantial bias, with clinical decision-making significantly skewed towards less aggressive patient management. Notably, we observe a high sensitivity to linguistic framing, where a single SL sentence is sufficient to alter model outputs, revealing a clear dose-response relationship. Furthermore, we evaluate standard prompt-based mitigation strategies, including Chain-of-Thought (CoT) reasoning and model self-debiasing. These approaches show limited efficacy; models struggle to explicitly identify SL while remaining implicitly influenced by it. Our findings expose a critical vulnerability in current LLMs regarding fairness and robustness in clinical NLP, underscoring the need for rigorous algorithmic guardrails to prevent the automation of health disparities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、臨床上の意思決定支援や医療ドキュメントなど、高度な領域にますます展開されている。
しかし、これらのモデルの微妙な言語的変動に対する頑健さ、特に人間によって書かれた臨床ノートに見られる言語(SL)は、いまだに過小評価されていない。
本研究では,臨床テキストの処理において,フロンティアLSMがヒトのバイアスを継承し,伝播するかどうかを検討する。
SL(二重性,責任性,悪性度)の多彩な強度と表現型をともなう臨床ヴィグネットを用いて,4つの重度医療条件における9つのフロンティアLSMを系統的に評価した。
以上の結果から,全ての評価モデルに有意な偏りがみられ,臨床的意思決定はより攻撃的な患者管理に苦しむことが示唆された。
特に,1つのSL文がモデル出力を変えるのに十分である言語フレーミングに対する高い感度を観察し,明確な線量応答関係を明らかにする。
さらに,チェーン・オブ・ソート(CoT)推論やモデル自己退化など,標準的なプロンプトに基づく緩和戦略を評価する。
これらのアプローチは限定的な有効性を示し、モデルはSLを明示的に識別するのに苦労するが、その影響は暗黙的に残る。
本研究は, 臨床用NLPの公平性, 堅牢性に重要な脆弱性が指摘され, 健康格差の自動化を防ぐための厳密なアルゴリズムガードレールの必要性が指摘されている。
関連論文リスト
- Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Mapping Clinical Doubt: Locating Linguistic Uncertainty in LLMs [4.360255198498071]
本研究は,医学テキストにおける言語的不確実性に対する入力側表現感度について検討する。
不確実性に対するモデル感度(MSU)は,不確実性によって誘導されるアクティベーションレベルシフトを階層的に推定する指標である。
論文 参考訳(メタデータ) (2025-11-27T12:26:06Z) - Towards Robust and Fair Next Visit Diagnosis Prediction under Noisy Clinical Notes with Large Language Models [4.56877715768796]
本稿では,多種多様なテキスト破損シナリオ下での最先端の大規模言語モデル(LLM)の体系的研究について述べる。
臨床に根ざしたラベル推論手法と,臨床医の推論をエミュレートする階層的チェーン・オブ・シント(CoT)戦略を導入する。
論文 参考訳(メタデータ) (2025-11-23T10:40:36Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Bigger But Not Better: Small Neural Language Models Outperform Large Language Models in Detection of Thought Disorder [7.585589727435719]
より小さなニューラルネットワークモデルが正の形式的思考障害の検出に有効な選択肢となるかどうかを検討する。
意外なことに,本研究の結果は,より小さなモデルの方が,形式的思考障害に関連する言語的差異に敏感であることが示唆された。
論文 参考訳(メタデータ) (2025-03-25T22:55:58Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。