論文の概要: Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets
- arxiv url: http://arxiv.org/abs/2312.08495v1
- Date: Wed, 13 Dec 2023 20:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:02:14.446462
- Title: Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets
- Title(参考訳): 大規模実世界の臨床テキストデータセットの自動復号化
- Authors: Veysel Kocaman, Hasham Ul Haq, David Talby
- Abstract要約: 本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。
完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
- 参考スコア(独自算出の注目度): 7.6631083158336715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research advances achieve human-level accuracy for de-identifying
free-text clinical notes on research datasets, but gaps remain in reproducing
this in large real-world settings. This paper summarizes lessons learned from
building a system used to de-identify over one billion real clinical notes, in
a fully automated way, that was independently certified by multiple
organizations for production use. A fully automated solution requires a very
high level of accuracy that does not require manual review. A hybrid
context-based model architecture is described, which outperforms a Named Entity
Recogniton (NER) - only model by 10% on the i2b2-2014 benchmark. The proposed
system makes 50%, 475%, and 575% fewer errors than the comparable AWS, Azure,
and GCP services respectively while also outperforming ChatGPT by 33%. It
exceeds 98% coverage of sensitive data across 7 European languages, without a
need for fine tuning. A second set of described models enable data obfuscation
-- replacing sensitive data with random surrogates -- while retaining name,
date, gender, clinical, and format consistency. Both the practical need and the
solution architecture that provides for reliable & linked anonymized documents
are described.
- Abstract(参考訳): 最近の研究は、研究データセットのフリーテキスト臨床ノートを非識別するための人間レベルの正確性を実現するが、大規模な実世界での再現にはギャップがある。
本稿では,10億以上の実際の臨床ノートを完全に自動化して識別するシステムの構築から得られた教訓を要約する。
完全に自動化されたソリューションは、手動レビューを必要としない非常に高いレベルの精度を必要とする。
ハイブリッドコンテキストベースのモデルアーキテクチャは、i2b2-2014ベンチマークで10%だけ、名前付きエンティティ認識(NER)よりも優れている。
提案されたシステムは、比較対象のAWS、Azure、GCPサービスよりも50%、475%、および575%エラーを削減し、ChatGPTを33%上回っている。
微調整を必要とせず、7つのヨーロッパ言語にまたがるセンシティブなデータカバレッジは98%を超えている。
第2のモデルでは、名前、日付、性別、臨床、フォーマットの整合性を保ちながら、機密データをランダムな代理に置き換える、データ難読化を可能にする。
実用的ニーズと信頼性のある匿名化されたドキュメントを提供するソリューションアーキテクチャについて説明する。
関連論文リスト
- Improving the accuracy of automated labeling of specimen images datasets via a confidence-based process [9.0255922670433]
本稿では,自動ラベリング精度を大幅に向上させる手法を提案する。
初期精度の86%を生んだナイーブモデルでは,性能が向上することが実証された。
このアプローチを様々な方法で検証した後、60,000以上のハーバリウム標本の大規模なデータセットに注釈を付けました。
論文 参考訳(メタデータ) (2024-11-15T09:39:12Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,DA手法の評価と,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの公平な評価を行うフレームワークを提案する。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Empowering HWNs with Efficient Data Labeling: A Clustered Federated
Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。
本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。
その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-01-19T11:47:49Z) - An Evaluation of Machine Learning Approaches for Early Diagnosis of
Autism Spectrum Disorder [0.0]
自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。
本研究は,診断プロセスの強化と自動化を目的として,多様な機械学習手法を用いて重要なASD特性を同定する。
論文 参考訳(メタデータ) (2023-09-20T21:23:37Z) - A Dependable Hybrid Machine Learning Model for Network Intrusion
Detection [1.222622290392729]
本稿では,機械学習とディープラーニングを組み合わせたハイブリッドモデルを提案する。
提案手法は,KDDCUP'99とCIC-MalMem-2022の2つのデータセットでテストした場合,優れた結果が得られる。
論文 参考訳(メタデータ) (2022-12-08T20:19:27Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。