論文の概要: Privacy-Preserving Models for Legal Natural Language Processing
- arxiv url: http://arxiv.org/abs/2211.02956v1
- Date: Sat, 5 Nov 2022 18:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:46:04.463398
- Title: Privacy-Preserving Models for Legal Natural Language Processing
- Title(参考訳): 法的自然言語処理のためのプライバシー保護モデル
- Authors: Ying Yin, Ivan Habernal
- Abstract要約: 特定のトレーニング設定下では、ドメイン内のデータに対するプライバシー保護を犠牲にすることなく、ダウンストリームのパフォーマンスを改善することができることを示す。
我々の主な貢献は、法的なNLPドメインにおけるトランスフォーマー言語モデルの大規模事前学習に差分プライバシーを利用することである。
- 参考スコア(独自算出の注目度): 3.408090198818185
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-training large transformer models with in-domain data improves domain
adaptation and helps gain performance on the domain-specific downstream tasks.
However, sharing models pre-trained on potentially sensitive data is prone to
adversarial privacy attacks. In this paper, we asked to which extent we can
guarantee privacy of pre-training data and, at the same time, achieve better
downstream performance on legal tasks without the need of additional labeled
data. We extensively experiment with scalable self-supervised learning of
transformer models under the formal paradigm of differential privacy and show
that under specific training configurations we can improve downstream
performance without sacrifying privacy protection for the in-domain data. Our
main contribution is utilizing differential privacy for large-scale
pre-training of transformer language models in the legal NLP domain, which, to
the best of our knowledge, has not been addressed before.
- Abstract(参考訳): ドメイン内データによる大規模なトランスフォーマーモデルの事前トレーニングは、ドメイン適応を改善し、ドメイン固有の下流タスクのパフォーマンス向上に役立つ。
しかし、潜在的に機密性の高いデータで事前訓練されたモデルを共有することは、敵対的なプライバシー攻撃につながる可能性がある。
本稿では,事前学習データのプライバシをどの程度保証できるかを問うとともに,ラベル付きデータの追加を必要とせず,法的タスクのダウンストリーム性能の向上を図る。
我々は,差分プライバシという形式パラダイムの下で,スケーラブルな自己教師付き学習を大規模に実験し,特定のトレーニング構成下では,ドメイン内データのプライバシ保護を犠牲にすることなく下流のパフォーマンスを向上させることができることを示した。
我々の主な貢献は、法的なNLPドメインにおけるトランスフォーマー言語モデルの大規模事前トレーニングに差分プライバシーを利用することです。
関連論文リスト
- Differentially Private Model-Based Offline Reinforcement Learning [51.1231068185106]
DP-MORLは差分プライバシーを保証するアルゴリズムである。
環境のプライベートモデルは、まずオフラインデータから学習される。
次に、モデルベースのポリシー最適化を使用して、プライベートモデルからポリシーを導出します。
論文 参考訳(メタデータ) (2024-02-08T10:05:11Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Considerations for Differentially Private Learning with Large-Scale
Public Pretraining [58.75893136929649]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Personalized PATE: Differential Privacy for Machine Learning with
Individual Privacy Guarantees [1.2691047660244335]
トレーニングデータ内に、パーソナライズされたプライバシ保証の異なるMLモデルのトレーニングを支援する3つの新しい方法を提案する。
実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-21T20:16:27Z) - Towards a Data Privacy-Predictive Performance Trade-off [2.580765958706854]
分類タスクにおけるデータプライバシと予測性能のトレードオフの存在を評価する。
従来の文献とは異なり、プライバシーのレベルが高ければ高いほど、予測性能が向上することを確認した。
論文 参考訳(メタデータ) (2022-01-13T21:48:51Z) - Causally Constrained Data Synthesis for Private Data Release [36.80484740314504]
原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。
以前の作業では、正式なプライバシ保証を提供するために、差分プライベートなデータリリースメカニズムを使用していました。
トレーニングプロセスに因果情報を導入し、上記のトレードオフを好意的に修正することを提案する。
論文 参考訳(メタデータ) (2021-05-27T13:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。