論文の概要: KART: Privacy Leakage Framework of Language Models Pre-trained with
Clinical Records
- arxiv url: http://arxiv.org/abs/2101.00036v1
- Date: Thu, 31 Dec 2020 19:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:10:18.538471
- Title: KART: Privacy Leakage Framework of Language Models Pre-trained with
Clinical Records
- Title(参考訳): KART:臨床記録を事前トレーニングした言語モデルのプライバシ漏洩フレームワーク
- Authors: Yuta Nakamura (1 and 2), Shouhei Hanaoka (3), Yukihiro Nomura (4),
Naoto Hayashi (4), Osamu Abe (1 and 3), Shuntaro Yada (2), Shoko Wakamiya
(2), Eiji Aramaki (2) ((1) The University of Tokyo, (2) Nara Institute of
Science and Technology, (3) The Department of Radiology, The University of
Tokyo Hospital, (4) The Department of Computational Diagnostic Radiology and
Preventive Medicine, The University of Tokyo Hospital)
- Abstract要約: 我々は,MIMIC-IIIコーパスで事前学習したBERTモデルを用いて,言語モデルのプライバシリスクを実証的に評価した。
BERTモデルは、各攻撃のTop-100精度が偶然に予想よりはるかに低いため、おそらく低リスクであった。
我々は、KART(Knowledge, Anonymization, Resource, and Target)フレームワークという、普遍的な新しいフレームワークで、さまざまなプライバシー漏洩シナリオを定式化した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, mainstream natural language pro-cessing (NLP) is empowered by
pre-trained language models. In the biomedical domain, only models pre-trained
with anonymized data have been published. This policy is acceptable, but there
are two questions: Can the privacy policy of language models be different from
that of data? What happens if private language models are accidentally made
public? We empirically evaluated the privacy risk of language models, using
several BERT models pre-trained with MIMIC-III corpus in different data
anonymity and corpus sizes. We simulated model inversion attacks to obtain the
clinical information of target individuals, whose full names are already known
to attackers. The BERT models were probably low-risk because the Top-100
accuracy of each attack was far below expected by chance. Moreover, most
privacy leakage situations have several common primary factors; therefore, we
formalized various privacy leakage scenarios under a universal novel framework
named Knowledge, Anonymization, Resource, and Target (KART) framework. The KART
framework helps parameterize complex privacy leakage scenarios and simplifies
the comprehensive evaluation. Since the concept of the KART framework is domain
agnostic, it can contribute to the establishment of privacy guidelines of
language models beyond the biomedical domain.
- Abstract(参考訳): 現在、主流自然言語プロセッシング(NLP)は、事前訓練された言語モデルによって強化されている。
生物医学領域では、匿名化されたデータで事前訓練されたモデルのみが公開されている。
このポリシーは受け入れられるが、2つの疑問がある。 言語モデルのプライバシポリシは、データと異なるものなのだろうか?
プライベート言語モデルが誤って公開されればどうなるのか?
我々は,muse-iiiコーパスで事前学習した複数のbertモデルを用いて,言語モデルのプライバシリスクを,データ匿名性とコーパスサイズで実験的に評価した。
モデル・インバージョン・アタックをシミュレートし,攻撃者のフルネームがすでに知られている対象者の臨床情報を取得する。
BERTのモデルは、各攻撃のTop-100の精度が偶然に予想されるよりもはるかに低かったため、おそらく低リスクであった。
さらに,ほとんどのプライバシリーク状況には,基本的な要因がいくつかあるため,知識・匿名化・資源・ターゲット(KART)フレームワークという,普遍的な新奇な枠組みの下で,さまざまなプライバシリークシナリオを定式化した。
KARTフレームワークは、複雑なプライバシー漏洩シナリオのパラメータ化と包括的な評価の簡略化を支援する。
KARTフレームワークの概念はドメインに依存しないため、バイオメディカルドメインを超えた言語モデルのプライバシーガイドラインの確立に寄与することができる。
関連論文リスト
- You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Submix: Practical Private Prediction for Large-Scale Language Models [32.36729880798025]
最近のデータ抽出攻撃は、言語モデルがいくつかのトレーニングサンプルを冗長に記憶できることを明らかにしている。
SubMixは、言語モデルによるプライバシー侵害を防止するために設計された、プライベートな次世代予測のためのプロトコルである。
SubMixは、何万もの次世代予測を公開してもプライバシを維持する最初のプロトコルである。
論文 参考訳(メタデータ) (2022-01-04T04:23:38Z) - Semantics-Preserved Distortion for Personal Privacy Protection [48.69930912510414]
クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。
フェデレートラーニング(Federated Learning)では、クライアントデバイスの生の情報から中心モデルをブロックする多くの方法が提案されている。
本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - CAPE: Context-Aware Private Embeddings for Private Language Learning [0.5156484100374058]
Context-Aware Private Embeddings (CAPE)は、埋め込みのトレーニング中にプライバシを保存する新しいアプローチである。
CAPEはディファレンシャルプライバシを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。
実験結果から,提案手法は単一介入よりも情報漏洩を低減させることが示された。
論文 参考訳(メタデータ) (2021-08-27T14:50:12Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。