論文の概要: Latent Dirichlet Allocation Model Training with Differential Privacy
- arxiv url: http://arxiv.org/abs/2010.04391v1
- Date: Fri, 9 Oct 2020 06:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:26:12.749316
- Title: Latent Dirichlet Allocation Model Training with Differential Privacy
- Title(参考訳): 差分プライバシーを用いた潜在ディリクレ配置モデルトレーニング
- Authors: Fangyuan Zhao, Xuebin Ren, Shusen Yang, Qing Han, Peng Zhao, and Xinyu
Yang
- Abstract要約: Collapsed Gibbs Sampling(CGS)に基づくLDA学習アルゴリズムのプライバシ保護について検討する。
また,クラウドソースデータに基づくローカルプライベートなLDAトレーニングアルゴリズム(LP-LDA)を提案し,個々のデータコントリビュータに対して局所的な差分プライバシーを提供する。
- 参考スコア(独自算出の注目度): 20.62970028874134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Dirichlet Allocation (LDA) is a popular topic modeling technique for
hidden semantic discovery of text data and serves as a fundamental tool for
text analysis in various applications. However, the LDA model as well as the
training process of LDA may expose the text information in the training data,
thus bringing significant privacy concerns. To address the privacy issue in
LDA, we systematically investigate the privacy protection of the main-stream
LDA training algorithm based on Collapsed Gibbs Sampling (CGS) and propose
several differentially private LDA algorithms for typical training scenarios.
In particular, we present the first theoretical analysis on the inherent
differential privacy guarantee of CGS based LDA training and further propose a
centralized privacy-preserving algorithm (HDP-LDA) that can prevent data
inference from the intermediate statistics in the CGS training. Also, we
propose a locally private LDA training algorithm (LP-LDA) on crowdsourced data
to provide local differential privacy for individual data contributors.
Furthermore, we extend LP-LDA to an online version as OLP-LDA to achieve LDA
training on locally private mini-batches in a streaming setting. Extensive
analysis and experiment results validate both the effectiveness and efficiency
of our proposed privacy-preserving LDA training algorithms.
- Abstract(参考訳): Latent Dirichlet Allocation (LDA) はテキストデータの隠れセマンティックな発見のための一般的なトピックモデリング手法であり、様々なアプリケーションにおけるテキスト解析の基本的なツールとして機能する。
しかし、LDAモデルとLDAのトレーニングプロセスは、トレーニングデータにテキスト情報を公開して、プライバシー上の懸念を生じさせる可能性がある。
LDAのプライバシ問題に対処するために,Collapsed Gibbs Sampling (CGS) に基づくメインストリームLDAトレーニングアルゴリズムのプライバシ保護を体系的に検討し,典型的なトレーニングシナリオに対するいくつかの差分プライベートLDAアルゴリズムを提案する。
特に,CGSをベースとしたLDAトレーニングにおける固有の差分プライバシー保証に関する最初の理論的解析を行い,さらに,CGSトレーニングにおける中間統計量からのデータ推測を防止できる集中型プライバシ保存アルゴリズム(HDP-LDA)を提案する。
また,クラウドソースデータに基づくローカルプライベートなLDAトレーニングアルゴリズム(LP-LDA)を提案し,個々のデータコントリビュータに対して局所的な差分プライバシーを提供する。
さらに、LP-LDAをOLP-LDAとしてオンライン版に拡張し、ストリーミング環境でローカルプライベートなミニバッチ上でLDAトレーニングを行う。
提案したプライバシー保護型LDAトレーニングアルゴリズムの有効性と効率の両立を総合解析および実験により検証した。
関連論文リスト
- LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Privacy for Fairness: Information Obfuscation for Fair Representation
Learning with Local Differential Privacy [26.307780067808565]
本研究では,プライバシと公正性の相互作用を包括的に検証するための理論的枠組みを提案する。
公平な表現学習のための情報ボトルネック(IB)に基づく情報難読化手法(LDP)を開発し,解析する。
MLにおける公平性に関する実証的研究とは対照的に,符号化過程における LDP のランダム化は,学習された表現の公平性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-02-16T06:35:10Z) - Differentially Private Deep Model-Based Reinforcement Learning [47.651861502104715]
形式的な差分プライバシー保証を備えたモデルベースRLアルゴリズムであるPriMORLを紹介する。
PriMORLはオフラインデータから環境の軌道レベルのDPモデルのアンサンブルを学習する。
論文 参考訳(メタデータ) (2024-02-08T10:05:11Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Open-Set Domain Adaptation with Visual-Language Foundation Models [51.49854335102149]
非教師なしドメイン適応(UDA)は、ソースドメインからラベルのないデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。
オープンセットドメイン適応(ODA)は、トレーニングフェーズ中にこれらのクラスを識別する潜在的なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-07-30T11:38:46Z) - Practical Privacy-Preserving Gaussian Process Regression via Secret
Sharing [23.80837224347696]
本稿では秘密共有(SS)に基づくプライバシー保護型GPR手法を提案する。
コンフュージョン補正(confusion-correction)というアイデアを通じて,新たなSSベースの指数演算を導出し,Cholesky分解に基づくSSベースの行列逆変換アルゴリズムを構築する。
実験結果から,データプライバシ保護の前提として,提案手法が妥当な精度と効率を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-26T08:17:51Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Adapting Off-the-Shelf Source Segmenter for Target Medical Image
Segmentation [12.703234995718372]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインから学習した知識をラベルなしおよび見えないターゲットドメインに転送することを目的としている。
データストレージやプライバシの問題のため、適応段階でのソースドメインデータへのアクセスは制限されることが多い。
我々は、ソースドメインで事前訓練されたオフザシェルフセグメントモデルをターゲットドメインに適用することを提案する。
論文 参考訳(メタデータ) (2021-06-23T16:16:55Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。