論文の概要: Improving Noise Efficiency in Privacy-preserving Dataset Distillation
- arxiv url: http://arxiv.org/abs/2508.01749v1
- Date: Sun, 03 Aug 2025 13:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.046187
- Title: Improving Noise Efficiency in Privacy-preserving Dataset Distillation
- Title(参考訳): プライバシー保護データセット蒸留におけるノイズ効率の改善
- Authors: Runkai Zheng, Vishnu Asutosh Dasu, Yinong Oliver Wang, Haohan Wang, Fernando De la Torre,
- Abstract要約: 本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
- 参考スコア(独自算出の注目度): 59.57846442477106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning models heavily rely on large datasets that often include sensitive and private information, raising serious privacy concerns. Differentially private (DP) data generation offers a solution by creating synthetic datasets that limit the leakage of private information within a predefined privacy budget; however, it requires a substantial amount of data to achieve performance comparable to models trained on the original data. To mitigate the significant expense incurred with synthetic data generation, Dataset Distillation (DD) stands out for its remarkable training and storage efficiency. This efficiency is particularly advantageous when integrated with DP mechanisms, curating compact yet informative synthetic datasets without compromising privacy. However, current state-of-the-art private DD methods suffer from a synchronized sampling-optimization process and the dependency on noisy training signals from randomly initialized networks. This results in the inefficient utilization of private information due to the addition of excessive noise. To address these issues, we introduce a novel framework that decouples sampling from optimization for better convergence and improves signal quality by mitigating the impact of DP noise through matching in an informative subspace. On CIFAR-10, our method achieves a \textbf{10.0\%} improvement with 50 images per class and \textbf{8.3\%} increase with just \textbf{one-fifth} the distilled set size of previous state-of-the-art methods, demonstrating significant potential to advance privacy-preserving DD.
- Abstract(参考訳): 現代の機械学習モデルは、機密情報やプライベート情報を含む大規模なデータセットに大きく依存しており、深刻なプライバシー上の懸念を生じさせている。
差分プライベート(DP)データ生成は、予め定義されたプライバシー予算内でプライベート情報の漏洩を制限する合成データセットを作成することで、ソリューションを提供するが、元のデータでトレーニングされたモデルに匹敵するパフォーマンスを達成するためには、かなりの量のデータを必要とする。
合成データ生成による大幅なコスト削減のために、データセット蒸留(DD)はその顕著なトレーニングと保存効率で際立っている。
この効率性は、DP機構に統合され、プライバシーを損なうことなくコンパクトで情報に富んだ合成データセットをキュレートするときに特に有利である。
しかし、現在の最先端のプライベートDD法は、同期サンプリング最適化プロセスとランダムに初期化されたネットワークからのノイズの多いトレーニング信号への依存に悩まされている。
これにより、過度なノイズの付加による個人情報の非効率利用が可能となる。
これらの問題に対処するために,情報サブ空間内のマッチングによってDPノイズの影響を緩和することにより,最適化からサンプリングを分離し,信号品質を向上する新しいフレームワークを提案する。
CIFAR-10では,従来の状態保存DDの蒸留したセットサイズを,クラス毎に50個の画像で改善し,また,単に \textbf{one-fifth} を用いて \textbf{10.0\%} の増加を実現し,プライバシー保護DDを前進させる大きな可能性を示した。
関連論文リスト
- Dual Utilization of Perturbation for Stream Data Publication under Local Differential Privacy [10.07017446059039]
ローカルディファレンシャルプライバシ(LDP)が有望な標準として登場した。
ストリームデータにLDPを適用することは、大きなあるいは無限の値を含む場合が多いため、大きな課題となる。
本稿では、電流摂動結果を用いてその後の摂動過程を校正する反復摂動IPP法を提案する。
これら3つのアルゴリズムが差分プライバシーを$w$-eventで満たし、実用性を大幅に向上することを証明する。
論文 参考訳(メタデータ) (2025-04-21T09:51:18Z) - Federated Learning with Differential Privacy: An Utility-Enhanced Approach [12.614480013684759]
フェデレーション学習は、クライアントのデータを共有する必要性をなくすことによって、データのプライバシを保護するための魅力的なアプローチとして現れている。
最近の研究では、フェデレートされた学習だけではプライバシーが保証されないことが示されている。
本稿では,これらのバニラ微分プライベートアルゴリズムを,ハールウェーブレット変換ステップとノイズの分散を著しく低減する新しいノイズ注入方式に基づいて修正する。
論文 参考訳(メタデータ) (2025-03-27T04:48:29Z) - Linear-Time User-Level DP-SCO via Robust Statistics [55.350093142673316]
ユーザレベルの差分プライベート凸最適化(DP-SCO)は、マシンラーニングアプリケーションにおけるユーザのプライバシ保護の重要性から、大きな注目を集めている。
微分プライベート勾配勾配(DP-SGD)に基づくような現在の手法は、しばしば高雑音蓄積と準最適利用に苦しむ。
これらの課題を克服するために、ロバストな統計、特に中央値とトリミング平均を利用する新しい線形時間アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-13T02:05:45Z) - DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing [0.8739101659113155]
有効なデータパブリッシングアルゴリズムであるemphDP-CDAを導入する。
提案アルゴリズムは、クラス固有の方法でデータをランダムに混合し、プライバシー保証を確保するために慎重に調整されたランダム性を誘導することにより、合成データセットを生成する。
以上の結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
論文 参考訳(メタデータ) (2024-11-25T06:14:06Z) - Differentially Private Fine-Tuning of Diffusion Models [22.454127503937883]
微分プライバシーと拡散モデル(DM)の統合は、有望だが挑戦的なフロンティアを示している。
この分野での最近の進歩は、公開データによる事前学習によって高品質な合成データを生成する可能性を強調している。
本稿では,プライバシとユーティリティのトレードオフを高めるために,トレーニング可能なパラメータの数を最小限に抑える,プライベート拡散モデルに最適化された戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T14:18:04Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control [3.8811062755861956]
$epsilon$-PrivateSMOTEは、再識別とリンケージ攻撃を防ぐためのテクニックである。
提案手法は,ノイズに起因した逆数による合成データ生成と,高リスクケースを難読化するための差分プライバシー原則を組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-01T13:20:37Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Mixed Differential Privacy in Computer Vision [133.68363478737058]
AdaMixは、プライベートとパブリックの両方の画像データを使用して、ディープニューラルネットワーク分類器をトレーニングするための適応型微分プライベートアルゴリズムである。
プライベートデータを無視する数ショットあるいはゼロショットの学習ベースラインは、大規模なプライベートデータセットの微調整よりも優れています。
論文 参考訳(メタデータ) (2022-03-22T06:15:43Z) - P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文 参考訳(メタデータ) (2020-06-22T09:47:54Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。