論文の概要: Enhancing Clinical Models with Pseudo Data for De-identification
- arxiv url: http://arxiv.org/abs/2506.12674v2
- Date: Tue, 17 Jun 2025 01:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 13:08:30.106975
- Title: Enhancing Clinical Models with Pseudo Data for De-identification
- Title(参考訳): 偽データを用いた鑑別診断のための臨床モデルの強化
- Authors: Paul Landes, Aaron J Chaise, Tarak Nath Nandi, Ravi K Madduri,
- Abstract要約: 臨床基礎モデルは、しばしば、保護された健康情報の代わりに特別な構文(マスケ)のテキストを使用する、特定されていないテキストで訓練される。
本研究では,テキストの再実行と,現実的な擬似テキストを置き換えたバージョンを含むデータセット上で,エンコーダのみのモデルをいくつか事前学習する。
次に、保護された健康情報識別タスクのモデルを微調整し、我々の方法が過去の基準よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 0.09424565541639367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many models are pretrained on redacted text for privacy reasons. Clinical foundation models are often trained on de-identified text, which uses special syntax (masked) text in place of protected health information. Even though these models have increased in popularity, there has been little effort in understanding the effects of training them on redacted text. In this work, we pretrain several encoder-only models on a dataset that contains redacted text and a version with replaced realistic pseudo text. We then fine-tuned models for the protected health information de-identification task and show how our methods significantly outperform previous baselines. The contributions of this work include: a) our novel, and yet surprising findings with training recommendations, b) redacted text replacements used to produce the pseudo dataset, c) pretrained embeddings and fine-tuned task specific models, and d) freely available pseudo training dataset generation and model source code used in our experiments.
- Abstract(参考訳): プライバシー上の理由から、多くのモデルが修正テキストで事前訓練されている。
臨床基礎モデルは、しばしば、保護された健康情報の代わりに特別な構文(マスケ)のテキストを使用する、特定されていないテキストで訓練される。
これらのモデルの人気は高まっているが、再実行されたテキストに対するトレーニングの効果を理解する努力はほとんど行われていない。
本研究では,テキストの再実行と,現実的な擬似テキストを置き換えたバージョンを含むデータセット上で,エンコーダのみのモデルをいくつか事前学習する。
次に、保護された健康情報識別タスクのモデルを微調整し、我々の方法が過去の基準よりも大幅に優れていることを示す。
この作品の貢献は以下のとおりである。
a) トレーニングレコメンデーションによる我々の小説で、しかし驚くべき発見
b) 擬似データセットを作成するために使用されるテキストの置換
c) 予め訓練された埋め込み及び微調整されたタスク特定モデル
d) 実験で使用した擬似トレーニングデータセットの生成とモデルソースコードを自由に利用できる。
関連論文リスト
- Large Language Models in the Task of Automatic Validation of Text Classifier Predictions [55.2480439325792]
テキスト分類のための機械学習モデルは、与えられたテキストのクラスを予測するために訓練される。
これを行うには、トレーニングと検証のサンプルを用意し、各テキストにクラスを割り当てる必要がある。
人間のアノテーションは通常、特定の分類タスクによって異なる専門レベルを持つ人間のアノテーションによって割り当てられる。
本稿では,人間のアノテータを大規模言語モデルに置き換えるためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:19:03Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。