論文の概要: SHIELD: A Diverse Clinical Note Dataset and Distilled Small Language Models for Enterprise-Scale De-identification
- arxiv url: http://arxiv.org/abs/2605.03301v1
- Date: Tue, 05 May 2026 02:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.73313
- Title: SHIELD: A Diverse Clinical Note Dataset and Distilled Small Language Models for Enterprise-Scale De-identification
- Title(参考訳): ShiELD: 企業規模の非識別のための多変量臨床ノートデータセットと希釈小言語モデル
- Authors: Jose D. Posada, David Love, Somalee Datta, Priya Desai,
- Abstract要約: ShiELDは、9つのカテゴリにまたがる10,505のゴールドスタンダードPHIを持つ、1,394枚のノートからなる多種多様なデータセットである。
我々は、4つの大規模言語モデル(LLM)を評価し、性能天井を確立し、これらの機能をローカルにデプロイ可能な小型言語モデル(SLM)に蒸留する。
最良蒸留モデルは, 構造化PHIカテゴリー(DATE, DOCTOR, ID, patient, PHONE)の教師に適合し, 標準ワークステーションハードウェアのマイクロ平均スパンレベル精度0.88、リコール0.86を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: De-identification of clinical text remains essential for secondary use of electronic health records (EHRs), yet public benchmarks such as i2b2 2006/2014 are over a decade old and lack the semantic and demographic diversity of modern narratives. While Large Language Models (LLMs) achieve state-of-the-art zero-shot extraction, enterprise deployment is hindered by compute costs and governance restricting Protected Health Information (PHI) from cloud APIs. We introduce SHIELD (Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification), a diverse dataset of 1,394 notes with 10,505 gold-standard PHI spans across 9 categories, built via set-cover diversity sampling with human-in-the-loop adjudication. We evaluate four LLMs (two proprietary, two open-weight) to establish a performance ceiling, then distill these capabilities into locally deployable Small Language Models (SLMs). Distributional analysis using Frechet Text Distance and Jensen-Shannon Divergence confirms SHIELD occupies a distinct region of biomedical embedding and vocabulary space versus legacy benchmarks. Our best distilled model matches its teacher on structured PHI categories (DATE, DOCTOR, ID, PATIENT, PHONE) and achieves micro-averaged span-level precision of 0.88 and recall of 0.86 on standard workstation hardware. Cross-dataset evaluation shows diversity-trained models generalize well on universal structured PHI, while institution-specific entities remain hard to transfer, suggesting optimal deployment combines broad-coverage models with specialized models for high-volume notes. We publicly release the SHIELD dataset and the distilled DeBERTa v3 model.
- Abstract(参考訳): 電子健康記録(EHR)の二次的使用には臨床テキストの非識別が不可欠であるが、i2b2 2006/2014のような公開ベンチマークは10年以上前からあり、現代の物語のセマンティックスと人口統計学の多様性は欠如している。
大規模言語モデル(LLM)が最先端のゼロショット抽出を実現する一方で、エンタープライズデプロイメントは、クラウドAPIから保護された健康情報(PHI)を制限する計算コストとガバナンスによって妨げられている。
そこで我々は,10,505のゴールドスタンダードPHIが9つのカテゴリにまたがる1,394の多様なデータセットであるShiELD(Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification)を紹介した。
4つのLLM(プロプライエタリな2つのオープンウェイト)を評価し、性能天井を確立し、それらをローカルにデプロイ可能なSLM(Small Language Models)に蒸留する。
Frechet Text Distance と Jensen-Shannon Divergence を用いた分布解析により、ShiELD はバイオメディカル埋め込みと語彙空間の異なる領域に占めることを確認した。
最良蒸留モデルは, 構造化PHIカテゴリー(DATE, DOCTOR, ID, patient, PHONE)の教師に適合し, 標準ワークステーションハードウェアのマイクロ平均スパンレベル精度0.88、リコール0.86を達成している。
クロスデータセット評価は、多様性訓練されたモデルが普遍的な構造化されたPHI上でうまく一般化されているのに対して、機関固有のエンティティは転送が困難であることを示し、最適な配置は広範囲モデルと高ボリュームノート用の特殊なモデルを組み合わせることを示唆している。
私たちはShielDデータセットと蒸留したDeBERTa v3モデルを公開します。
関連論文リスト
- Automated Multi-label Classification of Eleven Retinal Diseases: A Benchmark of Modern Architectures and a Meta-Ensemble on a Large Synthetic Dataset [1.996975578218265]
我々は、11の網膜疾患を分類するエンドツーエンドのディープラーニングパイプラインを開発した。
合成データのみに訓練されたモデルは,複数の病態を正確に分類し,実際の臨床画像に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2025-08-21T22:09:53Z) - Leveraging large language models and traditional machine learning ensembles for ADHD detection from narrative transcripts [6.55440666066668]
本稿では,物語の書き起こしを用いたADHD診断(バイナリ)の自動分類のためのアンサンブルフレームワークを提案する。
LLaMA3、RoBERTa、SVM(Support Vector Machine)の3つの補完モデルを統合する。
実験の結果、アンサンブルは個々のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-27T15:22:01Z) - TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。
各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。
このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文 参考訳(メタデータ) (2025-04-01T22:25:19Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。
本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。
我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文 参考訳(メタデータ) (2024-04-27T09:00:39Z) - Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries [0.024105148723769353]
我々は、精神状態検査から簡潔な要約を生成するために、いくつかの最先端の大規模言語モデル(LLM)を評価した。
確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。
我々の最高性能の微調整モデルは既存のモデルより優れており、ROUGE-1とROUGE-Lはそれぞれ0.810と0.764である。
論文 参考訳(メタデータ) (2024-03-29T12:25:37Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。