論文の概要: Sensitive Data Detection and Classification in Spanish Clinical Text:
Experiments with BERT
- arxiv url: http://arxiv.org/abs/2003.03106v2
- Date: Tue, 17 Mar 2020 13:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:20:42.951227
- Title: Sensitive Data Detection and Classification in Spanish Clinical Text:
Experiments with BERT
- Title(参考訳): スペイン語臨床テキストにおける感性データの検出と分類:BERTを用いた実験
- Authors: Aitor Garc\'ia-Pablos, Naiara Perez, Montse Cuadros
- Abstract要約: 本稿では、BERTに基づくシーケンスラベリングモデルを用いて、スペイン語で匿名化実験を行う。
実験により、汎用ドメイン事前学習を用いた単純なBERTモデルが、ドメイン固有の機能工学を使わずに、非常に競争力のある結果が得られることが示された。
- 参考スコア(独自算出の注目度): 0.8379286663107844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massive digital data processing provides a wide range of opportunities and
benefits, but at the cost of endangering personal data privacy. Anonymisation
consists in removing or replacing sensitive information from data, enabling its
exploitation for different purposes while preserving the privacy of
individuals. Over the years, a lot of automatic anonymisation systems have been
proposed; however, depending on the type of data, the target language or the
availability of training documents, the task remains challenging still. The
emergence of novel deep-learning models during the last two years has brought
large improvements to the state of the art in the field of Natural Language
Processing. These advancements have been most noticeably led by BERT, a model
proposed by Google in 2018, and the shared language models pre-trained on
millions of documents. In this paper, we use a BERT-based sequence labelling
model to conduct a series of anonymisation experiments on several clinical
datasets in Spanish. We also compare BERT to other algorithms. The experiments
show that a simple BERT-based model with general-domain pre-training obtains
highly competitive results without any domain specific feature engineering.
- Abstract(参考訳): 大量のデジタルデータ処理は、幅広い機会と利益を提供するが、個人データのプライバシーを危険にさらすコストがかかる。
匿名化は、機密情報をデータから削除または置き換えることであり、個人のプライバシーを維持しながら、異なる目的のためにその利用を可能にする。
長年にわたり、多くの自動匿名化システムが提案されてきたが、データの種類、対象言語、訓練文書の入手状況によっては、まだ課題が残っている。
過去2年間に新たなディープラーニングモデルが出現したことで、自然言語処理の分野における最先端の技術が大幅に向上した。
これらの進歩は、2018年にGoogleが提案したBERTと、数百万のドキュメントで事前トレーニングされた共有言語モデルによって最も顕著に導かれた。
本稿では,BERTに基づくシークエンスラベリングモデルを用いて,スペインにおけるいくつかの臨床データセットに対する一連の匿名化実験を行う。
BERTを他のアルゴリズムと比較する。
実験の結果, 汎用ドメイン事前学習を用いた単純なBERTモデルでは, ドメイン固有の特徴工学を使わずに, 高い競争力が得られることがわかった。
関連論文リスト
- Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Memorization of Named Entities in Fine-tuned BERT Models [3.0177210416625115]
細調整BERTモデルにおける名前付きエンティティ記憶の程度について検討する。
細調整されたBERTは、事前訓練されたBERTモデルよりも、細調整されたデータセットに特有の名前付きエンティティを生成できないことを示す。
論文 参考訳(メタデータ) (2022-12-07T16:20:50Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - What BERT Sees: Cross-Modal Transfer for Visual Question Generation [21.640299110619384]
補足データを用いた事前学習を回避して,BERTのアウト・オブ・ザ・ボックスの視覚能力について検討した。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入する。
論文 参考訳(メタデータ) (2020-02-25T12:44:36Z) - Federated pretraining and fine tuning of BERT using clinical notes from
multiple silos [4.794677806040309]
本研究では,データを移動せずに異なるサイロからの臨床テキストを用いて,BERTモデルの事前訓練と微調整を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-20T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。