論文の概要: Uncovering Latent Bias in LLM-Based Emergency Department Triage Through Proxy Variables
- arxiv url: http://arxiv.org/abs/2601.15306v1
- Date: Tue, 13 Jan 2026 07:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.337098
- Title: Uncovering Latent Bias in LLM-Based Emergency Department Triage Through Proxy Variables
- Title(参考訳): LLM型救急救命室における潜伏バイアスの出現 : プロキシ変数による検討
- Authors: Ethan Zhang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づく救急医療用AIシステムのバイアスについて検討する。
その結果,EDトリアージシナリオにおいて,プロキシ変数を介する識別行動が明らかになった。
これらの結果は、AIシステムは未だにノイズ、時には正真正銘を確実に反映しない非因果信号に基づいて不完全に訓練されていることを示唆している。
- 参考スコア(独自算出の注目度): 2.9269181918140643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have enabled their integration into clinical decision-making; however, hidden biases against patients across racial, social, economic, and clinical backgrounds persist. In this study, we investigate bias in LLM-based medical AI systems applied to emergency department (ED) triage. We employ 32 patient-level proxy variables, each represented by paired positive and negative qualifiers, and evaluate their effects using both public (MIMIC-IV-ED Demo, MIMIC-IV Demo) and restricted-access credentialed (MIMIC-IV-ED and MIMIC-IV) datasets as appropriate~\cite{mimiciv_ed_demo,mimiciv_ed,mimiciv}. Our results reveal discriminatory behavior mediated through proxy variables in ED triage scenarios, as well as a systematic tendency for LLMs to modify perceived patient severity when specific tokens appear in the input context, regardless of whether they are framed positively or negatively. These findings indicate that AI systems is still imperfectly trained on noisy, sometimes non-causal signals that do not reliably reflect true patient acuity. Consequently, more needs to be done to ensure the safe and responsible deployment of AI technologies in clinical settings.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、臨床意思決定への統合を可能にしているが、人種的、社会的、経済的、臨床的背景にまたがる患者に対する隠れバイアスは継続している。
本研究では,救急部(ED)トリアージに応用したLSMベースの医療AIシステムのバイアスについて検討した。
患者レベルの32のプロキシ変数をそれぞれペア正と負の修飾子で表し、パブリック(MIMIC-IV-ED Demo, MIMIC-IV Demo)と制限アクセス認証(MIMIC-IV-EDおよびMIMIC-IV)の両方のデータセットを適切な〜\cite{mimiciv_ed_demo,mimiciv_ed,mimiciv_ed,mimiciv}として使用した。
以上の結果から,EDトリアージシナリオのプロキシ変数を介する識別行動や,特定のトークンが入力コンテキストに現れると認識された患者の重症度が,肯定的・否定的にフレーム化されているかに関わらず,体系的に修正される傾向が明らかとなった。
これらの結果は、AIシステムは未だにノイズ、時には正真正銘を確実に反映しない非因果信号に基づいて不完全に訓練されていることを示唆している。
その結果、臨床環境でAI技術の安全かつ責任あるデプロイを保証するために、さらに多くのことを行う必要がある。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Exploring Membership Inference Vulnerabilities in Clinical Large Language Models [42.52690697965999]
臨床大言語モデル(LLM)におけるメンバーシップ推論脆弱性の探索的研究について述べる。
最新の臨床質問応答モデルであるLlemrを用いて、標準的損失に基づく攻撃とドメインを動機としたパラフレージングに基づく摂動戦略の両方を評価する。
その結果は、コンテキスト認識、ドメイン固有のプライバシ評価、防衛の継続的な開発を動機付けている。
論文 参考訳(メタデータ) (2025-10-21T14:27:48Z) - Robust or Suggestible? Exploring Non-Clinical Induction in LLM Drug-Safety Decisions [5.347177139463896]
大規模言語モデル (LLMs) は、生物医学領域にますます適用されているが、薬物安全性予測の信頼性は未解明のままである。
われわれはChatGPT-4oとBio-Medical-Llama-3.8Bの2つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2025-10-15T14:11:11Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。
本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文 参考訳(メタデータ) (2025-04-03T13:32:08Z) - Handling missing values in clinical machine learning: Insights from an expert study [10.637366819633302]
Inherently Interpretable Machine Learning (IML)モデルは、臨床的意思決定に有用なサポートを提供する。
計算不能や不完全なレコードの破棄といった従来のアプローチは、テスト時にデータが欠落しているシナリオでは現実的ではないことが多い。
フランスの29の外傷センターから55名の臨床医を調査し、3つのIMLモデルとの相互作用について検討した。
論文 参考訳(メタデータ) (2024-11-14T17:02:41Z) - How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。
本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。
このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文 参考訳(メタデータ) (2024-10-21T23:14:10Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。