Fugu-MT 論文翻訳(概要): PHICON: Improving Generalization of Clinical Text De-identification Models via Data Augmentation

論文の概要: PHICON: Improving Generalization of Clinical Text De-identification Models via Data Augmentation

arxiv url: http://arxiv.org/abs/2010.05143v1
Date: Sun, 11 Oct 2020 02:57:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-08 13:24:58.102895
Title: PHICON: Improving Generalization of Clinical Text De-identification Models via Data Augmentation
Title（参考訳）: PHICON:データ拡張による臨床テキスト識別モデルの一般化の改善
Authors: Xiang Yue and Shuang Zhou
Abstract要約: 一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。 PHICONは、PHI拡張とContext拡張で構成され、強化トレーニングコーパスを生成する。 2006年と2014年のi2b2の非識別課題データセットの実験結果から、PHICONは3つの選択された非識別モデルがデータセット間のテスト設定においてF1スコア(少なくとも8.6%)を高めるのに役立つことが示された。
参考スコア（独自算出の注目度）: 5.462226912969162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: De-identification is the task of identifying protected health information (PHI) in the clinical text. Existing neural de-identification models often fail to generalize to a new dataset. We propose a simple yet effective data augmentation method PHICON to alleviate the generalization issue. PHICON consists of PHI augmentation and Context augmentation, which creates augmented training corpora by replacing PHI entities with named-entities sampled from external sources, and by changing background context with synonym replacement or random word insertion, respectively. Experimental results on the i2b2 2006 and 2014 de-identification challenge datasets show that PHICON can help three selected de-identification models boost F1-score (by at most 8.6%) on cross-dataset test setting. We also discuss how much augmentation to use and how each augmentation method influences the performance.
Abstract（参考訳）: 脱識別は、臨床テキストで保護された健康情報(PHI)を識別するタスクである。既存のニューラルネットワークの非識別モデルは、しばしば新しいデータセットへの一般化に失敗する。一般化問題を緩和するために,単純で効果的なデータ拡張手法PHICONを提案する。 PHICONはPHI拡張とコンテキスト拡張で構成されており、PHIエンティティを外部ソースからサンプリングされた名前付きエンティティに置き換え、背景コンテキストを同義置換またはランダムな単語挿入に変更することにより、強化トレーニングコーパスを生成する。 i2b2 2006と2014の非識別チャレンジデータセットの実験結果は、phiconが3つの選択された非識別モデルのf1-score(最大8.6%)を、クロスデータセットのテスト設定で強化できることを示しています。また,各拡張方法が性能に与える影響についても検討した。

関連論文リスト

Comparing representations of long clinical texts for the task of patient note-identification [4.552065156611815]
患者ノートの識別には、匿名化された臨床ノートを対応する患者と正確に一致させ、関連するノートのセットで表現する。 BERTモデルを含む様々な埋め込み手法を探索し,中長期臨床テキストを効果的に処理する。以上の結果から,BERTをベースとした埋め込みは従来型および階層型モデル,特に長期臨床ノートの処理において優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T12:31:44Z)
DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。 ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文参考訳（メタデータ） (2024-10-22T14:06:31Z)
Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks [7.928574214440075]
本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
論文参考訳（メタデータ） (2024-07-23T04:20:14Z)
ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。 SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。 CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文参考訳（メタデータ） (2024-06-30T14:55:32Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Part-aware Personalized Segment Anything Model for Patient-Specific Segmentation [5.797437925674252]
医用画像を利用した患者適応治療などの精密医療は、画像分割アルゴリズムに新たな課題をもたらす。我々はこれらの課題,すなわちP2SAM(Part-aware Personalized Segment Anything Model)に対処するデータ効率のセグメンテーション手法を提案する。ワンショットデータのパートレベル特徴に基づいて複数ポイントプロンプトを選択する新しいパートアウェア・プロンプト機構を提案する。
論文参考訳（メタデータ） (2024-03-08T16:34:30Z)
Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文参考訳（メタデータ） (2023-11-03T06:34:37Z)
EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [4.057796755073023]
EMIT-Diffと呼ばれる医用画像合成のための制御可能な拡散モデルを開発した。近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。提案手法では, 合成試料が医療上の制約に適合することを確実にする。
論文参考訳（メタデータ） (2023-10-19T16:18:02Z)
Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文参考訳（メタデータ） (2022-11-13T01:07:23Z)
Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。 emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文参考訳（メタデータ） (2022-10-30T08:36:19Z)
An Analysis of Simple Data Augmentation for Named Entity Recognition [21.013836715832564]
名前付きエンティティ認識のためのデータ拡張の設計と比較を行う。簡単な拡張により、リカレントモデルとトランスフォーマーモデルの両方のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2020-10-22T13:21:03Z)
CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。 CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文参考訳（メタデータ） (2020-10-16T23:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。