論文の概要: Leveraging Randomness in Model and Data Partitioning for Privacy Amplification
- arxiv url: http://arxiv.org/abs/2503.03043v1
- Date: Tue, 04 Mar 2025 22:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:32.706681
- Title: Leveraging Randomness in Model and Data Partitioning for Privacy Amplification
- Title(参考訳): プライバシ・アンプリフィケーションのためのモデルとデータ分割におけるランダム性の活用
- Authors: Andy Dong, Wei-Ning Chen, Ayfer Ozgur,
- Abstract要約: トレーニングプロセスにおける固有のランダム性は、プライバシーの増幅にどのように活用できるかを考察する。
この中には、(1)データパーティショニング、(2)サンプルがトレーニングイテレーションのサブセットのみに参加し、(2)モデルパーティショニング、(2)サンプルがモデルのパラメータのサブセットだけを更新する。
以上の結果から、複雑な方法でデータと相互作用する訓練プロセスのランダム性は、重要なプライバシーの増幅のために体系的に活用できることが示唆された。
- 参考スコア(独自算出の注目度): 8.52745154080651
- License:
- Abstract: We study how inherent randomness in the training process -- where each sample (or client in federated learning) contributes only to a randomly selected portion of training -- can be leveraged for privacy amplification. This includes (1) data partitioning, where a sample participates in only a subset of training iterations, and (2) model partitioning, where a sample updates only a subset of the model parameters. We apply our framework to model parallelism in federated learning, where each client updates a randomly selected subnetwork to reduce memory and computational overhead, and show that existing methods, e.g. model splitting or dropout, provide a significant privacy amplification gain not captured by previous privacy analysis techniques. Additionally, we introduce Balanced Iteration Subsampling, a new data partitioning method where each sample (or client) participates in a fixed number of training iterations. We show that this method yields stronger privacy amplification than Poisson (i.i.d.) sampling of data (or clients). Our results demonstrate that randomness in the training process, which is structured rather than i.i.d. and interacts with data in complex ways, can be systematically leveraged for significant privacy amplification.
- Abstract(参考訳): トレーニングプロセスでは,各サンプル(あるいはフェデレート学習のクライアント)がランダムに選択されたトレーニングの一部にのみ貢献する,固有のランダム性が,プライバシの増幅にどのように活用できるかを検討する。
この中には、(1)データパーティショニング、(2)サンプルがトレーニングイテレーションのサブセットのみに参加し、(2)モデルパーティショニング、(2)サンプルがモデルのパラメータのサブセットだけを更新する。
各クライアントがランダムに選択したサブネットワークを更新し、メモリと計算オーバーヘッドを削減し、既存のメソッドである例えばモデルの分割やドロップアウトが、従来のプライバシ分析技術では捉えられなかった重要なプライバシ向上をもたらすことを示す。
さらに、各サンプル(またはクライアント)が一定数のトレーニングイテレーションに参加する新しいデータパーティショニング手法であるBa balanced Iteration Subsamplingを導入します。
この手法は,Poisson (d.d.) のデータサンプリング(あるいはクライアント)よりも強いプライバシー増幅をもたらすことを示す。
以上の結果から、複雑な方法でデータと対話する訓練プロセスのランダム性は、重要なプライバシーの増幅のために体系的に活用できることが示唆された。
関連論文リスト
- Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Balanced Data Sampling for Language Model Training with Clustering [96.46042695333655]
本稿では,学習データのテキスト分布のバランスをとるためにClusterClip Smplingを提案する。
大規模な実験は、ClusterClip Smplingの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-22T13:20:53Z) - FedSampling: A Better Sampling Strategy for Federated Learning [81.85411484302952]
フェデレートラーニング(FL)は、プライバシを保存する方法で分散化されたデータからモデルを学習するための重要なテクニックである。
既存のFLメソッドは通常、各ラウンドでローカルモデル学習のために一様にクライアントをサンプリングする。
フェデレート学習のための新しいデータ一様サンプリング戦略(FedSampling)を提案する。
論文 参考訳(メタデータ) (2023-06-25T13:38:51Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Renyi Differential Privacy of the Subsampled Shuffle Model in
Distributed Learning [7.197592390105457]
クライアントは、プライバシを必要とするサーバとのインタラクションを通じて、学習モデルを反復的に構築する分散学習フレームワークで、プライバシを研究する。
最適化とフェデレートラーニング(FL)パラダイムによって動機付けられ、各ラウンドで少数のデータサンプルがランダムにサブサンプリングされた場合に焦点を当てる。
より強力なローカルプライバシ保証を得るために,各クライアントがローカルディファレンシャル・プライベート(LDP)機構を用いて応答をランダム化するシャッフルプライバシ・モデルを用いてこれを検証した。
論文 参考訳(メタデータ) (2021-07-19T11:43:24Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Privacy Amplification via Random Check-Ins [38.72327434015975]
Differentially Private Gradient Descent (DP-SGD) は、多くのアプリケーションにおいて、機密データを学習するための基本的な構成要素となっている。
本稿では,DP-SGD のような反復的手法を,多くのデバイス(クライアント)に分散したフェデレーションラーニング(FL)の設定において実施することに焦点を当てる。
当社の主なコントリビューションは,各クライアントがローカルかつ独立に行うランダムな参加決定にのみ依存する,Emphrandom Check-in分散プロトコルです。
論文 参考訳(メタデータ) (2020-07-13T18:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。