論文の概要: Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language Models
- arxiv url: http://arxiv.org/abs/2506.00134v1
- Date: Fri, 30 May 2025 18:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.386006
- Title: Spurious Correlations and Beyond: Understanding and Mitigating Shortcut Learning in SDOH Extraction with Large Language Models
- Title(参考訳): 大言語モデルを用いたSDOH抽出におけるショートカット学習の理解と緩和
- Authors: Fardin Ahsan Sakib, Ziwei Zhu, Karen Trister Grace, Meliha Yetisgen, Ozlem Uzuner,
- Abstract要約: 大型言語モデル (LLM) は将来性を示しているが、表面的な手がかりに依存して、急激な予測を導いている。
アルコールや喫煙の言及は、誰もいない現在および過去における薬物使用を予測するために、モデルに誤った誘導を与える可能性があることを実証する。
我々は、これらの偽陽性を減らすために、迅速なエンジニアリングや連鎖推論などの緩和戦略を評価する。
- 参考スコア(独自算出の注目度): 3.3408746880885003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social determinants of health (SDOH) extraction from clinical text is critical for downstream healthcare analytics. Although large language models (LLMs) have shown promise, they may rely on superficial cues leading to spurious predictions. Using the MIMIC portion of the SHAC (Social History Annotation Corpus) dataset and focusing on drug status extraction as a case study, we demonstrate that mentions of alcohol or smoking can falsely induce models to predict current/past drug use where none is present, while also uncovering concerning gender disparities in model performance. We further evaluate mitigation strategies - such as prompt engineering and chain-of-thought reasoning - to reduce these false positives, providing insights into enhancing LLM reliability in health domains.
- Abstract(参考訳): 臨床テキストからの社会的健康決定因子(SDOH)の抽出は、下流の医療分析において重要である。
大型言語モデル(LLM)は将来性を示しているが、表面的な手がかりに頼り、急激な予測をもたらす可能性がある。
SHAC(Social History Annotation Corpus)データセットのMIMIC部分を用いて、薬物状態の抽出を事例研究として、アルコールや喫煙の言及が、モデルパフォーマンスにおける男女格差を解明しつつ、現在および過去における薬物使用の予測を誤って誘導できることを実証した。
我々は、これらの偽陽性を減らし、健康領域におけるLCMの信頼性向上に関する洞察を提供するため、迅速なエンジニアリングや連鎖推論などの緩和戦略をさらに評価する。
関連論文リスト
- Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models [46.05020842978823]
大規模言語モデル(LLM)はこの複雑なデータランドスケープをナビゲートする強力なツールとして登場した。
RAGGEDは、知識統合と仮説生成を伴う研究者を支援するために設計された包括的なワークフローである。
論文 参考訳(メタデータ) (2024-07-17T07:44:18Z) - LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction [38.11497959553319]
本研究では,構造化患者訪問データを自然言語物語に変換するための大規模言語モデルの適用可能性について検討する。
様々なERH予測指向のプロンプト戦略を用いて,LLMのゼロショット性能と少数ショット性能を評価した。
提案手法を用いることで,従来のERHによる疾患予測の教師付き学習法と比較して,LLMの精度は極めて低いことが示唆された。
論文 参考訳(メタデータ) (2024-03-19T18:10:13Z) - Clinical Risk Prediction Using Language Models: Benefits And
Considerations [23.781690889237794]
本研究は,語彙内で構造化された記述を用いて,その情報に基づいて予測を行うことに焦点を当てた。
構造化された EHR を表すために LM を用いると、様々なリスク予測タスクにおいて、改善または少なくとも同等のパフォーマンスが得られます。
論文 参考訳(メタデータ) (2023-11-29T04:32:19Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Deep Stable Representation Learning on Electronic Health Records [8.256340233221112]
CHE(Causal Healthcare Embedding)は、診断と処置の依存関係を取り除くことで、突発的な統計的関係を取り除くことを目的としている。
提案手法は,既存の深層学習モデルをEHR上で拡張可能な,フレキシブルなプラグアンドプレイモジュールとして利用できる。
論文 参考訳(メタデータ) (2022-09-03T04:10:45Z) - Label Dependent Attention Model for Disease Risk Prediction Using
Multimodal Electronic Health Records [8.854691034104071]
疾病リスク予測は、現代医療の分野で注目を集めている。
リスク予測にAIモデルを適用する上での課題のひとつは、解釈可能な証拠を生成することだ。
単語とラベルを共同で埋め込む手法を提案する。
論文 参考訳(メタデータ) (2022-01-18T07:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。