論文の概要: Fine-Tune, Don't Prompt, Your Language Model to Identify Biased Language in Clinical Notes
- arxiv url: http://arxiv.org/abs/2603.10004v1
- Date: Mon, 16 Feb 2026 22:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.55359
- Title: Fine-Tune, Don't Prompt, Your Language Model to Identify Biased Language in Clinical Notes
- Title(参考訳): 臨床ノートにバイザド言語を識別する言語モデル
- Authors: Isotta Landi, Eugenia Alleva, Nicole Bussola, Rebecca M. Cohen, Sarah Nowlin, Leslee J. Shaw, Alexander W. Charney, Kimberly B. Glazer,
- Abstract要約: 臨床的ドキュメンテーションには、感情に満ちた言語が含まれ、無効化や特権化が可能である。
このような言語を検知し分類するためのフレームワークを提案する。
語彙素数入力による微調整は、常にプロンプトアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 31.925112343488976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical documentation can contain emotionally charged language with stigmatizing or privileging valences. We present a framework for detecting and classifying such language as stigmatizing, privileging, or neutral. We constructed a curated lexicon of biased terms scored for emotional valence. We then used lexicon-based matching to extract text chunks from OB-GYN delivery notes (Mount Sinai Hospital, NY) and MIMIC-IV discharge summaries across multiple specialties. Three clinicians annotated all chunks, enabling characterization of valence patterns across specialties and healthcare systems. We benchmarked multiple classification strategies (zero-shot prompting, in-context learning, and supervised fine-tuning) across encoder-only models (GatorTron) and generative large language models (Llama). Fine-tuning with lexically primed inputs consistently outperformed prompting approaches. GatorTron achieved an F1 score of 0.96 on the OB-GYN test set, outperforming larger generative models while requiring minimal prompt engineering and fewer computational resources. External validation on MIMIC-IV revealed limited cross-domain generalizability (F1 < 0.70, 44% drop). Training on the broader MIMIC-IV dataset improved generalizability when testing on OB-GYN (F1 = 0.71, 11% drop), but at the cost of reduced precision. Our findings demonstrate that fine-tuning outperforms prompting for emotional valence classification and that models must be adapted to specific medical specialties to achieve clinically appropriate performance. The same terms can carry different emotional valences across specialties: words with clinical meaning in one context may be stigmatizing in another. For bias detection, where misclassification risks undermining clinician trust or perpetuating patient harm, specialty-specific fine-tuning is essential to capture these semantic shifts. * Equal contribution.
- Abstract(参考訳): 臨床的ドキュメンテーションには、感情に満ちた言語が含まれ、無効化や特権化が可能である。
本稿では, 便宜, 民営化, 中立化などの言語を検知し, 分類する枠組みを提案する。
感情の有意性を示す偏見付き用語のキュレートされた語彙を構築した。
次に,レキシコンをベースとしたマッチングを用いて,OB-GYN配信ノートからテキストチャンク(Mount Sinai Hospital,NY)とMIMIC-IV放電サマリーを抽出した。
3人の臨床医がすべてのチャンクに注釈を付け、専門分野や医療システムにまたがるヴァレンスパターンのキャラクタリゼーションを可能にした。
我々は,エンコーダのみのモデル(GatorTron)と生成型大規模言語モデル(Llama)にまたがる複数の分類戦略(ゼロショットプロンプト,インコンテキストラーニング,教師付き微調整)をベンチマークした。
語彙素数入力による微調整は、常にプロンプトアプローチよりも優れていた。
GatorTronはOB-GYNテストセットでF1スコア0.96を達成し、より大規模な生成モデルより優れ、最小限の急速エンジニアリングと少ない計算資源を必要とした。
MIMIC-IVの外部検証では、クロスドメインの一般化性が制限された(F1 < 0.70, 44% 減少)。
より広いMIMIC-IVデータセットのトレーニングにより、OB-GYN(F1 = 0.71, 11% 落下)でのテスト時の一般化性が向上したが、精度が低下した。
以上の結果から,感情的原子価の分類を促す微調整性能が向上し,臨床的に適切なパフォーマンスを達成するためには,特定の専門分野に適応する必要があることが示唆された。
同じ用語は、専門分野にまたがる異なる感情的価値を持ちうる:ある文脈で臨床的意味を持つ単語は、別の文脈で便宜化される。
バイアス検出では、臨床医の信頼を損なう誤分類や患者の危害を抑えるリスクがある場合、これらのセマンティックシフトを捉えるためには、特殊性特異的な微調整が不可欠である。
※寄付等
関連論文リスト
- Measuring What VLMs Don't Say: Validation Metrics Hide Clinical Terminology Erasure in Radiology Report Generation [10.15221228043609]
本稿では,テンプレート崩壊に拘わらず,高い集合トークンオーバラップスコアにつながる復号方式について検討する。
本稿では,人口統計に基づく単語の関連性の変化を定量化するための語彙レベルのフレームワークである,臨床協会変位(CAD)について紹介する。
決定論的復号化は意味的消去のレベルが高いことを示し、サンプリングは多様な出力を生成するが、新しいバイアスをもたらすリスクを示す。
論文 参考訳(メタデータ) (2026-03-02T08:59:39Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes [0.0]
本研究は臨床テキスト分類のためのGPTアーキテクチャを提案する。
すべてのモデルパラメータを更新する代わりに、GPT-2のバックボーンの大部分は凍結されている。
提案手法はMIMIC-IV-Noteデータセットからの放射線学報告に基づいて評価する。
論文 参考訳(メタデータ) (2026-01-29T16:33:47Z) - Specialised or Generic? Tokenization Choices for Radiology Language Models [2.081299660192454]
言語モデル(LM)が使用する語彙は、テキスト生成の品質において重要な役割を果たす。
放射線診断のタスクにおける一般,医療,ドメイン特異的なトークン化剤は,3つの画像モダリティにまたがって要約を報告する。
以上の結果から, 医学的, 専門的な語彙は, モデルがゼロから訓練されたとき, 広く使われている自然言語の代替語よりも優れていた。
論文 参考訳(メタデータ) (2025-08-13T17:13:56Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings [16.136832979324467]
本研究は,MIMIC-III 病院データセットから医療用ノートにディープ埋め込みモデル(BERT)を事前訓練する。
文脈的単語埋め込みによって捉えられる危険な潜伏関係を同定する。
我々は,50以上の下流臨床予測課題において,フェアネスの定義の異なる性能ギャップを評価する。
論文 参考訳(メタデータ) (2020-03-11T23:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。