論文の概要: Differentially Private Language Models Benefit from Public Pre-training
- arxiv url: http://arxiv.org/abs/2009.05886v2
- Date: Mon, 26 Oct 2020 16:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 02:51:49.597521
- Title: Differentially Private Language Models Benefit from Public Pre-training
- Title(参考訳): 公立事前学習に相応しい差分私的言語モデル
- Authors: Gavin Kerrigan and Dylan Slack and Jens Tuyls
- Abstract要約: 品質とプライバシーの保護を同時に行う言語モデル学習の実現可能性について検討する。
DPの微調整により,プライベートドメインにおける言語モデルの性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 1.2676356746752895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language modeling is a keystone task in natural language processing. When
training a language model on sensitive information, differential privacy (DP)
allows us to quantify the degree to which our private data is protected.
However, training algorithms which enforce differential privacy often lead to
degradation in model quality. We study the feasibility of learning a language
model which is simultaneously high-quality and privacy preserving by tuning a
public base model on a private corpus. We find that DP fine-tuning boosts the
performance of language models in the private domain, making the training of
such models possible.
- Abstract(参考訳): 言語モデリングは自然言語処理における重要なタスクである。
機密情報に基づいて言語モデルをトレーニングする場合、差分プライバシー(DP)は、プライベートデータが保護されている程度を定量化できます。
しかし、差分プライバシーを強制するトレーニングアルゴリズムは、しばしばモデル品質の低下につながる。
本研究では,個人コーパス上の公開ベースモデルを調整することで,高品質かつプライバシー保護の両立した言語モデル学習の実現可能性について検討する。
DP微調整により,プライベートドメインにおける言語モデルの性能が向上し,そのようなモデルのトレーニングが可能となる。
関連論文リスト
- PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Selective Pre-training for Private Fine-tuning [33.55628974557588]
パブリックデータセットでの注意深い事前トレーニングは、小さな言語モデルを異なるプライバシでトレーニングするために不可欠であることを示す。
その結果、より小さなモデルでは、注意深い事前トレーニングとプライベートな微調整によって、プライベートデータにアクセスできないはるかに大きなモデルの性能にマッチすることを示した。
論文 参考訳(メタデータ) (2023-05-23T09:36:58Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Q-LSTM Language Model -- Decentralized Quantum Multilingual Pre-Trained
Language Model for Privacy Protection [6.0038761646405225]
大規模言語モデルは、私たちのプライベート情報をエンコードしたり、反映したりする可能性のある、膨大な量の自然言語データに基づいて訓練されています。
悪意のあるエージェントは、事前トレーニングプロセスにデータ衛生と差分プライバシーアルゴリズムが関与している場合でも、トレーニングデータをリバースエンジニアリングすることができる。
大規模言語モデルの学習におけるプライバシー問題に対処する分散トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T21:29:17Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。