論文の概要: Privacy Amplification by Structured Subsampling for Deep Differentially Private Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2502.02410v1
- Date: Tue, 04 Feb 2025 15:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:56.523027
- Title: Privacy Amplification by Structured Subsampling for Deep Differentially Private Time Series Forecasting
- Title(参考訳): 時間差分予測のための構造化サブサンプリングによるプライバシ増幅
- Authors: Jan Schuchardt, Mina Dalirrooyfard, Jed Guzelkabaagac, Anderson Schneider, Yuriy Nevmyvaka, Stephan Günnemann,
- Abstract要約: トレーニングシーケンスモデルにおける構造化サブサンプリングによって達成されるプライバシーの増幅について検討する。
シーケンスモデルの自己教師型トレーニングにおいて,データ拡張がいかに活用できるかを実証する。
- 参考スコア(独自算出の注目度): 43.057227209625985
- License:
- Abstract: Many forms of sensitive data, such as web traffic, mobility data, or hospital occupancy, are inherently sequential. The standard method for training machine learning models while ensuring privacy for units of sensitive information, such as individual hospital visits, is differentially private stochastic gradient descent (DP-SGD). However, we observe in this work that the formal guarantees of DP-SGD are incompatible with timeseries-specific tasks like forecasting, since they rely on the privacy amplification attained by training on small, unstructured batches sampled from an unstructured dataset. In contrast, batches for forecasting are generated by (1) sampling sequentially structured time series from a dataset, (2) sampling contiguous subsequences from these series, and (3) partitioning them into context and ground-truth forecast windows. We theoretically analyze the privacy amplification attained by this structured subsampling to enable the training of forecasting models with sound and tight event- and user-level privacy guarantees. Towards more private models, we additionally prove how data augmentation amplifies privacy in self-supervised training of sequence models. Our empirical evaluation demonstrates that amplification by structured subsampling enables the training of forecasting models with strong formal privacy guarantees.
- Abstract(参考訳): ウェブトラフィック、モビリティデータ、病院占領など、多くの機密データが本質的にシーケンシャルである。
個別の病院訪問などの機密情報の単位に対するプライバシーを確保しつつ、機械学習モデルをトレーニングする標準的な方法は、個人的確率勾配勾配(DP-SGD)である。
しかし,本研究では,DP-SGDの正式な保証は,非構造化データセットからサンプリングされた小さな非構造化バッチのトレーニングによって達成されるプライバシーの増幅に依存するため,予測などのタイムリー固有のタスクとは相容れないことが確認された。
対照的に、予測のためのバッチは、(1)データセットから逐次的に構造化された時系列をサンプリングし、(2)これらの系列から連続したサブシーケンスをサンプリングし、(3)それらを文脈と地味の予測ウィンドウに分割することによって生成される。
この構造的なサブサンプリングによって達成されるプライバシーの増幅を理論的に分析し、健全で厳密なイベントとユーザレベルのプライバシ保証を備えた予測モデルのトレーニングを可能にする。
よりプライベートなモデルに向けて、シーケンスモデルの自己教師型トレーニングにおいて、データの増大がプライバシをいかに増幅するかを実証する。
実験により,構造化サブサンプリングによる増幅により,厳密な正式なプライバシー保証付き予測モデルのトレーニングが可能であることを実証した。
関連論文リスト
- Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - Differential Privacy Regularization: Protecting Training Data Through Loss Function Regularization [49.1574468325115]
ニューラルネットワークに基づく機械学習モデルのトレーニングには、機密情報を含む大きなデータセットが必要である。
差分的にプライベートなSGD [DP-SGD] は、新しいモデルをトレーニングするために標準勾配降下アルゴリズム(SGD)を変更する必要がある。
より効率的な方法で同じ目標を達成するための新しい正規化戦略が提案されている。
論文 参考訳(メタデータ) (2024-09-25T17:59:32Z) - DAM: Towards A Foundation Model for Time Series Forecasting [0.8231118867997028]
本稿では,ランダムにサンプリングされた履歴を抽出し,時間連続関数として調整可能な基底組成を出力するニューラルモデルを提案する。
1)長い尾の分布からランダムにサンプリングされたヒストリーを使用する柔軟なアプローチ、(2)これらの活発にサンプリングされたヒストリーに基づいてトレーニングされたトランスフォーマーバックボーンを表現的出力として、(3)時間の連続関数の基底係数を含む。
論文 参考訳(メタデータ) (2024-07-25T08:48:07Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Generative Pretrained Hierarchical Transformer for Time Series Forecasting [3.739587363053192]
予測のための新しい生成事前学習型階層型トランスフォーマーアーキテクチャ,textbfGPHTを提案する。
主流の自己教師付き事前学習モデルと教師付きモデルを用いて,8つのデータセット上で十分な実験を行う。
その結果、GPHTは、従来の長期予測タスクにおいて、様々な微調整およびゼロ/フェーショット学習設定のベースラインモデルを上回ることを示した。
論文 参考訳(メタデータ) (2024-02-26T11:54:54Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Conditional Density Estimations from Privacy-Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Arbitrary Decisions are a Hidden Cost of Differentially Private Training [7.560688419767116]
機械学習で使用されるメカニズムは、しばしばモデルトレーニング中に差分プライバシー(DP)を保証することを目的としている。
モデルパラメータをプライバシに敏感なデータに適合させる際にランダム化を利用する。
与えられた入力の例として、等プライベートなモデルによって予測される出力は、トレーニングで使用されるランダム性に依存する。
論文 参考訳(メタデータ) (2023-02-28T12:13:43Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - imdpGAN: Generating Private and Specific Data with Generative
Adversarial Networks [19.377726080729293]
imdpGANは、プライバシー保護と潜伏表現を同時に達成するエンドツーエンドフレームワークである。
我々は、ImdpGANが個々のデータポイントのプライバシを保持し、生成したサンプルの特異性を制御するために潜時符号を学習していることを示す。
論文 参考訳(メタデータ) (2020-09-29T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。