論文の概要: Lossy Compression of Noisy Data for Private and Data-Efficient Learning
- arxiv url: http://arxiv.org/abs/2202.02892v4
- Date: Wed, 22 Mar 2023 05:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:12:26.776829
- Title: Lossy Compression of Noisy Data for Private and Data-Efficient Learning
- Title(参考訳): プライベート・データ効率学習のためのノイズ圧縮
- Authors: Berivan Isik, Tsachy Weissman
- Abstract要約: プライバシ保証を提供すると同時に,ユーザデータのストレージコストを低減するためのフレームワークを提案する。
提案手法はノイズ注入と損失圧縮を含む。
付加雑音の分布と損失圧縮を適切に一致させると、圧縮例が収束することを示す。
- 参考スコア(独自算出の注目度): 12.51337299300091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Storage-efficient privacy-preserving learning is crucial due to increasing
amounts of sensitive user data required for modern learning tasks. We propose a
framework for reducing the storage cost of user data while at the same time
providing privacy guarantees, without essential loss in the utility of the data
for learning. Our method comprises noise injection followed by lossy
compression. We show that, when appropriately matching the lossy compression to
the distribution of the added noise, the compressed examples converge, in
distribution, to that of the noise-free training data as the sample size of the
training data (or the dimension of the training data) increases. In this sense,
the utility of the data for learning is essentially maintained, while reducing
storage and privacy leakage by quantifiable amounts. We present experimental
results on the CelebA dataset for gender classification and find that our
suggested pipeline delivers in practice on the promise of the theory: the
individuals in the images are unrecognizable (or less recognizable, depending
on the noise level), overall storage of the data is substantially reduced, with
no essential loss (and in some cases a slight boost) to the classification
accuracy. As an added bonus, our experiments suggest that our method yields a
substantial boost to robustness in the face of adversarial test data.
- Abstract(参考訳): ストレージ効率の高いプライバシ保護学習は、現代の学習タスクに必要なセンシティブなユーザデータの増加のために重要である。
本稿では,学習用データの有用性を損なうことなく,プライバシ保証を提供すると同時に,ユーザデータのストレージコストを削減するフレームワークを提案する。
本手法はノイズ注入と損失圧縮を含む。
その結果, 損失圧縮を付加雑音の分布に適切に一致させると, 圧縮サンプルは, トレーニングデータ(またはトレーニングデータの寸法)のサンプルサイズが増加するにつれて, ノイズフリートレーニングデータの分布に収束することがわかった。
この意味では、学習データの有用性は本質的に維持され、定量量によるストレージとプライバシーの漏洩は低減される。
我々は、性別分類のためのCelebAデータセットに実験結果を示し、提案したパイプラインは、画像内の個人が認識できない(または、ノイズレベルによっては認識できない)こと、データの全体的な保存が大幅に減少すること、そして、本質的な損失(場合によっては多少の上昇)を伴わないこと、といった理論の約束に基づいて実際に提供されることを発見した。
追加のボーナスとして,本手法は逆テストデータに対してロバスト性が大幅に向上することが示唆された。
関連論文リスト
- Enabling On-Device Learning via Experience Replay with Efficient Dataset Condensation [15.915388740468815]
本稿では,重要な情報損失を回避するために,最も代表的データを特定する問題に対処するオンデバイスフレームワークを提案する。
具体的には、未ラベルの着信データを効果的に処理するために、未ラベルのオンデバイス学習環境向けに設計された擬似ラベル技術を提案する。
バッファ容量は1クラスにつき1サンプルに過ぎず,既存のベースラインを58.4%上回る精度を実現している。
論文 参考訳(メタデータ) (2024-05-25T07:52:36Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Concealing Sensitive Samples against Gradient Leakage in Federated
Learning [41.43099791763444]
Federated Learning(FL)は、クライアントが生のプライベートデータをサーバと共有する必要をなくし、ユーザのプライバシを高める分散学習パラダイムである。
近年の研究では、FLの脆弱性が逆攻撃のモデルとなり、敵は共有勾配情報に基づく盗聴によって個人データを再構築している。
我々は,機密データの勾配を隠蔽標本で曖昧にする,シンプルで効果的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-09-13T04:19:35Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Preventing Catastrophic Forgetting and Distribution Mismatch in
Knowledge Distillation via Synthetic Data [5.064036314529226]
本稿では,データフリーなKDフレームワークを提案する。
実験により,KDを用いて得られた学生モデルの精度を,最先端の手法と比較して向上できることが実証された。
論文 参考訳(メタデータ) (2021-08-11T08:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。