論文の概要: KART: Privacy Leakage Framework of Language Models Pre-trained with
Clinical Records
- arxiv url: http://arxiv.org/abs/2101.00036v1
- Date: Thu, 31 Dec 2020 19:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:10:18.538471
- Title: KART: Privacy Leakage Framework of Language Models Pre-trained with
Clinical Records
- Title(参考訳): KART:臨床記録を事前トレーニングした言語モデルのプライバシ漏洩フレームワーク
- Authors: Yuta Nakamura (1 and 2), Shouhei Hanaoka (3), Yukihiro Nomura (4),
Naoto Hayashi (4), Osamu Abe (1 and 3), Shuntaro Yada (2), Shoko Wakamiya
(2), Eiji Aramaki (2) ((1) The University of Tokyo, (2) Nara Institute of
Science and Technology, (3) The Department of Radiology, The University of
Tokyo Hospital, (4) The Department of Computational Diagnostic Radiology and
Preventive Medicine, The University of Tokyo Hospital)
- Abstract要約: 我々は,MIMIC-IIIコーパスで事前学習したBERTモデルを用いて,言語モデルのプライバシリスクを実証的に評価した。
BERTモデルは、各攻撃のTop-100精度が偶然に予想よりはるかに低いため、おそらく低リスクであった。
我々は、KART(Knowledge, Anonymization, Resource, and Target)フレームワークという、普遍的な新しいフレームワークで、さまざまなプライバシー漏洩シナリオを定式化した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, mainstream natural language pro-cessing (NLP) is empowered by
pre-trained language models. In the biomedical domain, only models pre-trained
with anonymized data have been published. This policy is acceptable, but there
are two questions: Can the privacy policy of language models be different from
that of data? What happens if private language models are accidentally made
public? We empirically evaluated the privacy risk of language models, using
several BERT models pre-trained with MIMIC-III corpus in different data
anonymity and corpus sizes. We simulated model inversion attacks to obtain the
clinical information of target individuals, whose full names are already known
to attackers. The BERT models were probably low-risk because the Top-100
accuracy of each attack was far below expected by chance. Moreover, most
privacy leakage situations have several common primary factors; therefore, we
formalized various privacy leakage scenarios under a universal novel framework
named Knowledge, Anonymization, Resource, and Target (KART) framework. The KART
framework helps parameterize complex privacy leakage scenarios and simplifies
the comprehensive evaluation. Since the concept of the KART framework is domain
agnostic, it can contribute to the establishment of privacy guidelines of
language models beyond the biomedical domain.
- Abstract(参考訳): 現在、主流自然言語プロセッシング(NLP)は、事前訓練された言語モデルによって強化されている。
生物医学領域では、匿名化されたデータで事前訓練されたモデルのみが公開されている。
このポリシーは受け入れられるが、2つの疑問がある。 言語モデルのプライバシポリシは、データと異なるものなのだろうか?
プライベート言語モデルが誤って公開されればどうなるのか?
我々は,muse-iiiコーパスで事前学習した複数のbertモデルを用いて,言語モデルのプライバシリスクを,データ匿名性とコーパスサイズで実験的に評価した。
モデル・インバージョン・アタックをシミュレートし,攻撃者のフルネームがすでに知られている対象者の臨床情報を取得する。
BERTのモデルは、各攻撃のTop-100の精度が偶然に予想されるよりもはるかに低かったため、おそらく低リスクであった。
さらに,ほとんどのプライバシリーク状況には,基本的な要因がいくつかあるため,知識・匿名化・資源・ターゲット(KART)フレームワークという,普遍的な新奇な枠組みの下で,さまざまなプライバシリークシナリオを定式化した。
KARTフレームワークは、複雑なプライバシー漏洩シナリオのパラメータ化と包括的な評価の簡略化を支援する。
KARTフレームワークの概念はドメインに依存しないため、バイオメディカルドメインを超えた言語モデルのプライバシーガイドラインの確立に寄与することができる。
関連論文リスト
- PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文 参考訳(メタデータ) (2023-10-03T17:30:33Z) - Does CLIP Know My Face? [31.21910897081894]
マルチモーダルモデル,特にCLIPのような視覚言語モデルのプライバシを評価する新しい手法を提案する。
提案したIDIA攻撃(IDIA)は、同一人物の画像でモデルをクエリすることで、個人がトレーニングデータに含まれるかどうかを明らかにする。
我々の結果は、大規模モデルにおけるより強力なプライバシー保護の必要性を強調し、IDIAは、トレーニングに不正なデータの使用を証明し、プライバシー法を強制するために使用できることを示唆している。
論文 参考訳(メタデータ) (2022-09-15T14:48:50Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。