論文の概要: PHICON: Improving Generalization of Clinical Text De-identification
Models via Data Augmentation
- arxiv url: http://arxiv.org/abs/2010.05143v1
- Date: Sun, 11 Oct 2020 02:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:24:58.102895
- Title: PHICON: Improving Generalization of Clinical Text De-identification
Models via Data Augmentation
- Title(参考訳): PHICON:データ拡張による臨床テキスト識別モデルの一般化の改善
- Authors: Xiang Yue and Shuang Zhou
- Abstract要約: 一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。
PHICONは、PHI拡張とContext拡張で構成され、強化トレーニングコーパスを生成する。
2006年と2014年のi2b2の非識別課題データセットの実験結果から、PHICONは3つの選択された非識別モデルがデータセット間のテスト設定においてF1スコア(少なくとも8.6%)を高めるのに役立つことが示された。
- 参考スコア(独自算出の注目度): 5.462226912969162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: De-identification is the task of identifying protected health information
(PHI) in the clinical text. Existing neural de-identification models often fail
to generalize to a new dataset. We propose a simple yet effective data
augmentation method PHICON to alleviate the generalization issue. PHICON
consists of PHI augmentation and Context augmentation, which creates augmented
training corpora by replacing PHI entities with named-entities sampled from
external sources, and by changing background context with synonym replacement
or random word insertion, respectively. Experimental results on the i2b2 2006
and 2014 de-identification challenge datasets show that PHICON can help three
selected de-identification models boost F1-score (by at most 8.6%) on
cross-dataset test setting. We also discuss how much augmentation to use and
how each augmentation method influences the performance.
- Abstract(参考訳): 脱識別は、臨床テキストで保護された健康情報(PHI)を識別するタスクである。
既存のニューラルネットワークの非識別モデルは、しばしば新しいデータセットへの一般化に失敗する。
一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。
PHICONはPHI拡張とコンテキスト拡張で構成されており、PHIエンティティを外部ソースからサンプリングされた名前付きエンティティに置き換え、背景コンテキストを同義置換またはランダムな単語挿入に変更することにより、強化トレーニングコーパスを生成する。
i2b2 2006と2014の非識別チャレンジデータセットの実験結果は、phiconが3つの選択された非識別モデルのf1-score(最大8.6%)を、クロスデータセットのテスト設定で強化できることを示しています。
また,各拡張方法が性能に与える影響についても検討した。
関連論文リスト
- DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks [7.928574214440075]
本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-23T04:20:14Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Part-aware Personalized Segment Anything Model for Patient-Specific
Segmentation [5.797437925674252]
医用画像を利用した患者適応治療などの精密医療は、画像分割アルゴリズムに新たな課題をもたらす。
我々はこれらの課題,すなわちP2SAM(Part-aware Personalized Segment Anything Model)に対処するデータ効率のセグメンテーション手法を提案する。
ワンショットデータのパートレベル特徴に基づいて複数ポイントプロンプトを選択する新しいパートアウェア・プロンプト機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T16:34:30Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided
Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - An Analysis of Simple Data Augmentation for Named Entity Recognition [21.013836715832564]
名前付きエンティティ認識のためのデータ拡張の設計と比較を行う。
簡単な拡張により、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-10-22T13:21:03Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。