論文の概要: Robust or Suggestible? Exploring Non-Clinical Induction in LLM Drug-Safety Decisions
- arxiv url: http://arxiv.org/abs/2510.13931v1
- Date: Wed, 15 Oct 2025 14:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.550897
- Title: Robust or Suggestible? Exploring Non-Clinical Induction in LLM Drug-Safety Decisions
- Title(参考訳): ロバスト・サジェストブル : LLM薬物安全判断における非クリニカル誘導の探索
- Authors: Siying Liu, Shisheng Zhang, Indu Bala,
- Abstract要約: 大規模言語モデル (LLMs) は、生物医学領域にますます適用されているが、薬物安全性予測の信頼性は未解明のままである。
われわれはChatGPT-4oとBio-Medical-Llama-3.8Bの2つの最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 5.347177139463896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly applied in biomedical domains, yet their reliability in drug-safety prediction remains underexplored. In this work, we investigate whether LLMs incorporate socio-demographic information into adverse event (AE) predictions, despite such attributes being clinically irrelevant. Using structured data from the United States Food and Drug Administration Adverse Event Reporting System (FAERS) and a persona-based evaluation framework, we assess two state-of-the-art models, ChatGPT-4o and Bio-Medical-Llama-3.8B, across diverse personas defined by education, marital status, employment, insurance, language, housing stability, and religion. We further evaluate performance across three user roles (general practitioner, specialist, patient) to reflect real-world deployment scenarios where commercial systems often differentiate access by user type. Our results reveal systematic disparities in AE prediction accuracy. Disadvantaged groups (e.g., low education, unstable housing) were frequently assigned higher predicted AE likelihoods than more privileged groups (e.g., postgraduate-educated, privately insured). Beyond outcome disparities, we identify two distinct modes of bias: explicit bias, where incorrect predictions directly reference persona attributes in reasoning traces, and implicit bias, where predictions are inconsistent, yet personas are not explicitly mentioned. These findings expose critical risks in applying LLMs to pharmacovigilance and highlight the urgent need for fairness-aware evaluation protocols and mitigation strategies before clinical deployment.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、生物医学領域にますます適用されているが、薬物安全性予測の信頼性は未解明のままである。
本研究では,LLMが臨床的に無関係であるにもかかわらず,社会デマトグラフィー情報を有害事象(AE)予測に組み入れているかどうかを検討する。
米国食品医薬品局 (FAERS) とペルソナに基づく評価枠組みを用いて, 教育, 婚姻状況, 雇用, 保険, 言語, 居住安定, 宗教によって定義された多様な人格の2つの最先端モデルであるChatGPT-4oとBio-Medical-Llama-3.8Bを評価した。
さらに3つのユーザロール(一般実践者、専門家、患者)のパフォーマンスを評価し、商用システムがユーザタイプによってアクセスを区別する実際のデプロイメントシナリオを反映する。
その結果,AE予測精度の体系的差異が明らかになった。
障害のあるグループ(例えば低学歴、不安定な住宅)は、より多くの特権を持つグループ(例えば、卒後教育、私的保険)よりも高い予測AE確率が割り当てられた。
結果の相違を超えて、私たちは2つの異なるバイアスのモードを識別する: 明示的バイアス: 推論トレースにおいて、誤った予測が直接ペルソナ属性を参照する 暗黙的バイアス: 予測が矛盾するが、ペルソナは明示的に言及されない。
以上の結果から, LLMsを薬物動態に応用する上で重要なリスクが指摘され, 臨床導入前の公平性評価プロトコルや緩和戦略の緊急の必要性が浮き彫りとなった。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Predictive Representativity: Uncovering Racial Bias in AI-based Skin Cancer Detection [0.0]
本稿では,予測表現性(PR)の概念を紹介する。
PRは、データセットの構成から成果レベルのエクイティへと焦点をシフトします。
解析の結果,皮膚光タイプによる性能の相違が明らかとなった。
論文 参考訳(メタデータ) (2025-07-10T22:21:06Z) - Affective-ROPTester: Capability and Bias Analysis of LLMs in Predicting Retinopathy of Prematurity [34.80765908439636]
未熟児の網膜症(ROP)を予測できる言語モデルの能力は、まだ明らかにされていない。
我々は,低,中,高リスクラベルを付加した993の入場記録を含む,CROPと呼ばれる新しい中国のベンチマークデータセットを導入する。
本稿では,3つのプロンプト戦略を組み込んだ自動評価フレームワークAffective-ROPTesterを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:36:14Z) - Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。
本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文 参考訳(メタデータ) (2025-04-03T13:32:08Z) - Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - Comparing Targeting Strategies for Maximizing Social Welfare with Limited Resources [20.99198458867724]
政策立案者はランダム化制御試験(RCT)からデータにアクセスされることが滅多にないため、個人が介入の恩恵を受けるであろう正確な見積もりが可能になる。
実践者は、一般的にリスクベースのターゲティングと呼ばれるテクニックを使用します。
現在、どの選択肢が最も効果的な機械学習インフォームドターゲティング戦略につながるかを知らせる実証的な証拠はほとんどない。
論文 参考訳(メタデータ) (2024-11-11T22:36:50Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Clinical Risk Prediction Using Language Models: Benefits And
Considerations [23.781690889237794]
本研究は,語彙内で構造化された記述を用いて,その情報に基づいて予測を行うことに焦点を当てた。
構造化された EHR を表すために LM を用いると、様々なリスク予測タスクにおいて、改善または少なくとも同等のパフォーマンスが得られます。
論文 参考訳(メタデータ) (2023-11-29T04:32:19Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。