論文の概要: How to keep text private? A systematic review of deep learning methods
for privacy-preserving natural language processing
- arxiv url: http://arxiv.org/abs/2205.10095v1
- Date: Fri, 20 May 2022 11:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 22:07:25.018830
- Title: How to keep text private? A systematic review of deep learning methods
for privacy-preserving natural language processing
- Title(参考訳): テキストをプライベートにする方法?
プライバシー保護自然言語処理のためのディープラーニング手法の体系的レビュー
- Authors: Samuel Sousa and Roman Kern
- Abstract要約: 記事は2016年から2020年にかけて発行されたプライバシー保護NLPに関する60以上の方法を体系的にレビューしている。
本稿では,既存の手法を3つのカテゴリに分類する新しい分類法を提案する。
我々は、データトレーサビリティ、オーバーヘッドデータセットサイズ、埋め込みにおける人間のバイアスの頻度に関するプライバシー保護NLPのオープンな課題について論じる。
- 参考スコア(独自算出の注目度): 0.38073142980732994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) models for natural language processing (NLP) tasks often
handle private data, demanding protection against breaches and disclosures.
Data protection laws, such as the European Union's General Data Protection
Regulation (GDPR), thereby enforce the need for privacy. Although many
privacy-preserving NLP methods have been proposed in recent years, no
categories to organize them have been introduced yet, making it hard to follow
the progress of the literature. To close this gap, this article systematically
reviews over sixty DL methods for privacy-preserving NLP published between 2016
and 2020, covering theoretical foundations, privacy-enhancing technologies, and
analysis of their suitability for real-world scenarios. First, we introduce a
novel taxonomy for classifying the existing methods into three categories: data
safeguarding methods, trusted methods, and verification methods. Second, we
present an extensive summary of privacy threats, datasets for applications, and
metrics for privacy evaluation. Third, throughout the review, we describe
privacy issues in the NLP pipeline in a holistic view. Further, we discuss open
challenges in privacy-preserving NLP regarding data traceability, computation
overhead, dataset size, the prevalence of human biases in embeddings, and the
privacy-utility tradeoff. Finally, this review presents future research
directions to guide successive research and development of privacy-preserving
NLP models.
- Abstract(参考訳): 自然言語処理(nlp)タスクのためのディープラーニング(dl)モデルは、プライベートデータを処理し、侵入や開示に対する保護を要求することが多い。
欧州連合の一般データ保護規則(GDPR)のようなデータ保護法は、それによってプライバシーの必要性を強制する。
近年, プライバシ保護のためのNLP手法が数多く提案されているが, 組織化のためのカテゴリがまだ導入されていないため, 文献の進歩に追随することが困難である。
このギャップを埋めるために、この記事では、2016年から2020年にかけて発行されたプライバシー保護NLPに関する60以上のDLメソッドを体系的にレビューし、理論的基礎、プライバシー強化技術、および現実のシナリオに対するそれらの適合性の分析について述べる。
まず,既存の手法をデータ保護方法,信頼性手法,検証方法の3つのカテゴリに分類する新しい分類法を提案する。
第2に,プライバシの脅威,アプリケーションのデータセット,プライバシ評価のためのメトリクスの広範な要約を紹介する。
第3に,レビュー全体を通じて,nlpパイプラインのプライバシ問題について全体論的に説明する。
さらに,データのトレーサビリティ,計算オーバーヘッド,データセットサイズ,組込みにおける人間のバイアス,プライバシ利用トレードオフに関する,プライバシ保全nlpのオープンな課題について論じる。
最後に,プライバシ保護型nlpモデルの継続的な研究と開発を指導する今後の研究指針を提案する。
関連論文リスト
- PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Collection, usage and privacy of mobility data in the enterprise and public administrations [55.2480439325792]
個人のプライバシーを守るためには、匿名化などのセキュリティ対策が必要である。
本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。
我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。
論文 参考訳(メタデータ) (2024-07-04T08:29:27Z) - Privacy-Preserving Language Model Inference with Instance Obfuscation [33.86459812694288]
言語モデル・アズ・ア・サービス(LM)は、開発者や研究者が事前訓練された言語モデルを使用して推論を行うための便利なアクセスを提供する。
入力データとプライベート情報を含む推論結果は、サービスコール中にプレーンテキストとして公開され、プライバシー上の問題が発生する。
本稿では,自然言語理解タスクにおける決定プライバシ問題に対処することに焦点を当てた,インスタンス・オブフルスケート推論(IOI)手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T05:36:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - A Human-in-the-Loop Approach for Information Extraction from Privacy
Policies under Data Scarcity [0.0]
プライバシポリシアノテーションに対するHuman-in-the-Loopアプローチのプロトタイプシステムを提案する。
本稿では,プライバシポリシアノテーションの領域で一般的なデータ不足の制約に特化して,MLに基づく提案システムを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:26Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Differential Privacy in Natural Language Processing: The Story So Far [21.844047604993687]
本稿では,差分プライバシーが抱える脆弱性を要約することを目的とする。
このトピックは、NLPメソッドに差別的プライバシを適用するにはどうすればよいのか、という1つの基本的な目標にまとめられている、新しい研究のきっかけとなった。
論文 参考訳(メタデータ) (2022-08-17T08:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。