論文の概要: PHICON: Improving Generalization of Clinical Text De-identification
Models via Data Augmentation
- arxiv url: http://arxiv.org/abs/2010.05143v1
- Date: Sun, 11 Oct 2020 02:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:24:58.102895
- Title: PHICON: Improving Generalization of Clinical Text De-identification
Models via Data Augmentation
- Title(参考訳): PHICON:データ拡張による臨床テキスト識別モデルの一般化の改善
- Authors: Xiang Yue and Shuang Zhou
- Abstract要約: 一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。
PHICONは、PHI拡張とContext拡張で構成され、強化トレーニングコーパスを生成する。
2006年と2014年のi2b2の非識別課題データセットの実験結果から、PHICONは3つの選択された非識別モデルがデータセット間のテスト設定においてF1スコア(少なくとも8.6%)を高めるのに役立つことが示された。
- 参考スコア(独自算出の注目度): 5.462226912969162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: De-identification is the task of identifying protected health information
(PHI) in the clinical text. Existing neural de-identification models often fail
to generalize to a new dataset. We propose a simple yet effective data
augmentation method PHICON to alleviate the generalization issue. PHICON
consists of PHI augmentation and Context augmentation, which creates augmented
training corpora by replacing PHI entities with named-entities sampled from
external sources, and by changing background context with synonym replacement
or random word insertion, respectively. Experimental results on the i2b2 2006
and 2014 de-identification challenge datasets show that PHICON can help three
selected de-identification models boost F1-score (by at most 8.6%) on
cross-dataset test setting. We also discuss how much augmentation to use and
how each augmentation method influences the performance.
- Abstract(参考訳): 脱識別は、臨床テキストで保護された健康情報(PHI)を識別するタスクである。
既存のニューラルネットワークの非識別モデルは、しばしば新しいデータセットへの一般化に失敗する。
一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。
PHICONはPHI拡張とコンテキスト拡張で構成されており、PHIエンティティを外部ソースからサンプリングされた名前付きエンティティに置き換え、背景コンテキストを同義置換またはランダムな単語挿入に変更することにより、強化トレーニングコーパスを生成する。
i2b2 2006と2014の非識別チャレンジデータセットの実験結果は、phiconが3つの選択された非識別モデルのf1-score(最大8.6%)を、クロスデータセットのテスト設定で強化できることを示しています。
また,各拡張方法が性能に与える影響についても検討した。
関連論文リスト
- Part-aware Personalized Segment Anything Model for Patient-Specific
Segmentation [5.797437925674252]
医用画像を利用した患者適応治療などの精密医療は、画像分割アルゴリズムに新たな課題をもたらす。
我々はこれらの課題,すなわちP2SAM(Part-aware Personalized Segment Anything Model)に対処するデータ効率のセグメンテーション手法を提案する。
ワンショットデータのパートレベル特徴に基づいて複数ポイントプロンプトを選択する新しいパートアウェア・プロンプト機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T16:34:30Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided
Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - Smart(Sampling)Augment: Optimal and Efficient Data Augmentation for
Semantic Segmentation [68.8204255655161]
セマンティックイメージセグメンテーションに関する最初の研究を行い、textitSmartAugment と textitSmartSamplingAugment の2つの新しいアプローチを紹介した。
SmartAugmentはベイジアン最適化を使用して、拡張戦略の豊富なスペースを探索し、私たちが考慮しているすべてのセマンティックセグメンテーションタスクにおいて、新しい最先端のパフォーマンスを達成する。
SmartSamplingAugmentは、固定的な拡張戦略を備えたシンプルなパラメータフリーのアプローチで、既存のリソース集約型アプローチとパフォーマンスを競い合い、安価な最先端データ拡張手法を上回っている。
論文 参考訳(メタデータ) (2021-10-31T13:04:45Z) - An Analysis of Simple Data Augmentation for Named Entity Recognition [21.013836715832564]
名前付きエンティティ認識のためのデータ拡張の設計と比較を行う。
簡単な拡張により、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-10-22T13:21:03Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Automatic Data Augmentation for 3D Medical Image Segmentation [37.262350163905445]
医用画像分割作業において、識別可能な自動データ拡張が採用されたのは、これが初めてである。
我々の数値実験により,提案手法は,最先端モデルの既存のビルトインデータ拡張を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-07T12:51:17Z) - Data augmentation using generative networks to identify dementia [20.137419355252362]
生成モデルはデータ拡張の効果的なアプローチとして利用できることを示す。
本稿では,認知症自動検出システムから抽出した音声と音声の異なる特徴に対する類似したアプローチの適用について検討する。
論文 参考訳(メタデータ) (2020-04-13T15:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。