論文の概要: Privacy-Preserving Models for Legal Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.02956v1
- Date: Sat, 5 Nov 2022 18:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:46:04.463398
- Title: Privacy-Preserving Models for Legal Natural Language Processing
- Title(参考訳): 法的自然言語処理のためのプライバシー保護モデル
- Authors: Ying Yin, Ivan Habernal
- Abstract要約: 特定のトレーニング設定下では、ドメイン内のデータに対するプライバシー保護を犠牲にすることなく、ダウンストリームのパフォーマンスを改善することができることを示す。
我々の主な貢献は、法的なNLPドメインにおけるトランスフォーマー言語モデルの大規模事前学習に差分プライバシーを利用することである。
- 参考スコア(独自算出の注目度): 3.408090198818185
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-training large transformer models with in-domain data improves domain
adaptation and helps gain performance on the domain-specific downstream tasks.
However, sharing models pre-trained on potentially sensitive data is prone to
adversarial privacy attacks. In this paper, we asked to which extent we can
guarantee privacy of pre-training data and, at the same time, achieve better
downstream performance on legal tasks without the need of additional labeled
data. We extensively experiment with scalable self-supervised learning of
transformer models under the formal paradigm of differential privacy and show
that under specific training configurations we can improve downstream
performance without sacrifying privacy protection for the in-domain data. Our
main contribution is utilizing differential privacy for large-scale
pre-training of transformer language models in the legal NLP domain, which, to
the best of our knowledge, has not been addressed before.
- Abstract(参考訳): ドメイン内データによる大規模なトランスフォーマーモデルの事前トレーニングは、ドメイン適応を改善し、ドメイン固有の下流タスクのパフォーマンス向上に役立つ。
しかし、潜在的に機密性の高いデータで事前訓練されたモデルを共有することは、敵対的なプライバシー攻撃につながる可能性がある。
本稿では,事前学習データのプライバシをどの程度保証できるかを問うとともに,ラベル付きデータの追加を必要とせず,法的タスクのダウンストリーム性能の向上を図る。
我々は,差分プライバシという形式パラダイムの下で,スケーラブルな自己教師付き学習を大規模に実験し,特定のトレーニング構成下では,ドメイン内データのプライバシ保護を犠牲にすることなく下流のパフォーマンスを向上させることができることを示した。
我々の主な貢献は、法的なNLPドメインにおけるトランスフォーマー言語モデルの大規模事前トレーニングに差分プライバシーを利用することです。
関連論文リスト
- Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。
学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。
UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文 参考訳(メタデータ) (2024-04-22T09:29:14Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Personalized PATE: Differential Privacy for Machine Learning with
Individual Privacy Guarantees [1.2691047660244335]
トレーニングデータ内に、パーソナライズされたプライバシ保証の異なるMLモデルのトレーニングを支援する3つの新しい方法を提案する。
実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-21T20:16:27Z) - Causally Constrained Data Synthesis for Private Data Release [36.80484740314504]
原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。
以前の作業では、正式なプライバシ保証を提供するために、差分プライベートなデータリリースメカニズムを使用していました。
トレーニングプロセスに因果情報を導入し、上記のトレードオフを好意的に修正することを提案する。
論文 参考訳(メタデータ) (2021-05-27T13:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。