論文の概要: LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification
- arxiv url: http://arxiv.org/abs/2402.16515v1
- Date: Mon, 26 Feb 2024 11:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:33:46.123688
- Title: LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification
- Title(参考訳): 医用テキスト分類のための分布チュータを用いた知識蒸留によるLCMベースのプライバシデータ拡張
- Authors: Yiping Song, Juhua Zhang, Zhiliang Tian, Yuxin Yang, Minlie Huang,
Dongsheng Li
- Abstract要約: ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
- 参考スコア(独自算出の注目度): 67.92145284679623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As sufficient data are not always publically accessible for model training,
researchers exploit limited data with advanced learning algorithms or expand
the dataset via data augmentation (DA). Conducting DA in private domain
requires private protection approaches (i.e. anonymization and perturbation),
but those methods cannot provide protection guarantees. Differential privacy
(DP) learning methods theoretically bound the protection but are not skilled at
generating pseudo text samples with large models. In this paper, we transfer
DP-based pseudo sample generation task to DP-based generated samples
discrimination task, where we propose a DP-based DA method with a LLM and a
DP-based discriminator for text classification on private domains. We construct
a knowledge distillation model as the DP-based discriminator: teacher models,
accessing private data, teaches students how to select private samples with
calibrated noise to achieve DP. To constrain the distribution of DA's
generation, we propose a DP-based tutor that models the noised private
distribution and controls samples' generation with a low privacy cost. We
theoretically analyze our model's privacy protection and empirically verify our
model.
- Abstract(参考訳): モデルトレーニングに十分なデータが必ずしも公開されていないため、研究者は高度な学習アルゴリズムで限られたデータを利用するか、データ拡張(DA)を通じてデータセットを拡張する。
プライベートドメインでdaを実行するには、プライベート保護アプローチ(匿名化と摂動)が必要であるが、これらのメソッドは保護保証を提供しない。
差分プライバシー(DP)学習法は理論的には保護を拘束するが、大きなモデルで擬似テキストサンプルを生成するには熟練していない。
本稿では,DPベースの擬似サンプル生成タスクをDPベースのサンプル識別タスクに転送し,LLMを用いたDPベースのDA法とプライベートドメインのテキスト分類のためのDPベースの識別器を提案する。
本研究では,DPに基づく識別器として知識蒸留モデルを構築し,個人データにアクセスし,校正ノイズのある個人サンプルの選定方法を教える。
da生成の分布を制約するために,ノイズのあるプライベート分布をモデル化し,プライバシコストの低いサンプル生成を制御するdpベースのチュータを提案する。
理論上は,モデルのプライバシー保護を解析し,実証的に検証する。
関連論文リスト
- Beyond the Mean: Differentially Private Prototypes for Private Transfer Learning [16.028575596905554]
本稿では,個人間移動学習の新たなパラダイムとして,DPPL(differially Private Prototype Learning)を提案する。
DPPLは、埋め込み空間内の各プライベートクラスを表すプロトタイプを生成し、推論のために公開することができる。
エンコーダの事前トレーニング以上の公開データを活用すれば,プライバシユーティリティのトレードオフをさらに改善できることを示す。
論文 参考訳(メタデータ) (2024-06-12T09:41:12Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Arbitrary Decisions are a Hidden Cost of Differentially Private Training [7.560688419767116]
機械学習で使用されるメカニズムは、しばしばモデルトレーニング中に差分プライバシー(DP)を保証することを目的としている。
モデルパラメータをプライバシに敏感なデータに適合させる際にランダム化を利用する。
与えられた入力の例として、等プライベートなモデルによって予測される出力は、トレーニングで使用されるランダム性に依存する。
論文 参考訳(メタデータ) (2023-02-28T12:13:43Z) - A Prototype-Oriented Clustering for Domain Shift with Source Privacy [66.67700676888629]
本稿では,PCD(Prototype-oriented Clustering with Distillation)を導入し,既存の手法の性能と適用性を向上させる。
PCDはまず、プロトタイプとデータの分布を整列することで、ソースクラスタリングモデルを構築する。
その後、ソースモデルが提供するクラスタラベルを通じてターゲットモデルに知識を蒸留し、同時にターゲットデータをクラスタ化する。
論文 参考訳(メタデータ) (2023-02-08T00:15:35Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Diffusion Models [46.46256537222917]
我々は近年の拡散モデル(DM)の成功の上に構築され、微分プライベート拡散モデル(DPDM)を導入している。
DMのトレーニングに適したDP-SGDの強力な修正であるノイズ多重性を提案する。
我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:20:47Z) - An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling
to Differential Privacy Preserving Speech Recognition [51.20130423303659]
本稿では,Poissonサブサンプルを用いたアンサンブル学習フレームワークを提案する。
DP下での強化を通じて、トレーニングデータから派生した学生モデルは、プライバシ保護なしでトレーニングされたモデルからほとんどモデル劣化を受けない。
提案手法は,<i>Poisson sub-sampling</i>によるプライバシ予算の増幅を行い,同じレベルのプライバシ予算を達成するためにノイズの少ないターゲット予測モデルをトレーニングする。
論文 参考訳(メタデータ) (2022-10-12T16:34:08Z) - Personalized PATE: Differential Privacy for Machine Learning with
Individual Privacy Guarantees [1.2691047660244335]
トレーニングデータ内に、パーソナライズされたプライバシ保証の異なるMLモデルのトレーニングを支援する3つの新しい方法を提案する。
実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-21T20:16:27Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。