論文の概要: Privacy-Utility Trade-off in Data Publication: A Bilevel Optimization Framework with Curvature-Guided Perturbation
- arxiv url: http://arxiv.org/abs/2509.02048v1
- Date: Tue, 02 Sep 2025 07:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.948505
- Title: Privacy-Utility Trade-off in Data Publication: A Bilevel Optimization Framework with Curvature-Guided Perturbation
- Title(参考訳): データパブリケーションにおけるプライバシとユーティリティのトレードオフ: 曲率誘導摂動を用いた双方向最適化フレームワーク
- Authors: Yi Yin, Guangquan Zhang, Hua Zuo, Jie Lu,
- Abstract要約: プライベートデータセットを公開するための新しい双方向最適化フレームワークを導入する。
上位レベルのタスクでは、識別器が生成プロセスをガイドし、潜伏変数が高品質なサンプルにマップされることを保証する。
低レベルタスクでは、MIAに対する個々の脆弱性の定量的尺度として、データ多様体上の局所的外部曲率を用いる。
- 参考スコア(独自算出の注目度): 22.727580097886747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models require datasets for effective training, but directly sharing raw data poses significant privacy risk such as membership inference attacks (MIA). To mitigate the risk, privacy-preserving techniques such as data perturbation, generalization, and synthetic data generation are commonly utilized. However, these methods often degrade data accuracy, specificity, and diversity, limiting the performance of downstream tasks and thus reducing data utility. Therefore, striking an optimal balance between privacy preservation and data utility remains a critical challenge. To address this issue, we introduce a novel bilevel optimization framework for the publication of private datasets, where the upper-level task focuses on data utility and the lower-level task focuses on data privacy. In the upper-level task, a discriminator guides the generation process to ensure that perturbed latent variables are mapped to high-quality samples, maintaining fidelity for downstream tasks. In the lower-level task, our framework employs local extrinsic curvature on the data manifold as a quantitative measure of individual vulnerability to MIA, providing a geometric foundation for targeted privacy protection. By perturbing samples toward low-curvature regions, our method effectively suppresses distinctive feature combinations that are vulnerable to MIA. Through alternating optimization of both objectives, we achieve a synergistic balance between privacy and utility. Extensive experimental evaluations demonstrate that our method not only enhances resistance to MIA in downstream tasks but also surpasses existing methods in terms of sample quality and diversity.
- Abstract(参考訳): 機械学習モデルは効果的なトレーニングのためにデータセットを必要とするが、生データを直接共有することは、メンバーシップ推論攻撃(MIA)のような重要なプライバシーリスクをもたらす。
リスクを軽減するために、データ摂動、一般化、合成データ生成といったプライバシー保護技術が一般的に利用される。
しかし、これらの手法はデータ精度、特異性、多様性を低下させ、下流タスクの性能を制限し、データの有用性を低下させる。
したがって、プライバシー保護とデータユーティリティの最適バランスを達成することは、依然として重要な課題である。
この問題に対処するため、プライベートデータセットを公開するための新しい双方向最適化フレームワークを導入し、上位レベルタスクはデータユーティリティに、下位レベルタスクはデータプライバシに焦点をあてる。
上位レベルタスクでは、判別器が生成プロセスをガイドし、摂動潜伏変数が高品質なサンプルにマップされ、下流タスクの忠実性を維持する。
低レベルのタスクでは、MIAに対する個々の脆弱性の定量的尺度として、データ多様体上の局所的外部曲率を用いており、ターゲットとするプライバシ保護のための幾何学的基盤を提供する。
試料を低曲率領域に摂動させることにより,MIAに弱い特徴の組み合わせを効果的に抑制する。
両目的を交互に最適化することで,プライバシとユーティリティの相乗的バランスを実現する。
実験により,本手法は下流作業におけるMIA耐性を高めるだけでなく,サンプル品質や多様性の観点からも既存手法を超越していることが明らかとなった。
関連論文リスト
- Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文 参考訳(メタデータ) (2025-08-03T13:15:52Z) - A Privacy-Preserving Data Collection Method for Diversified Statistical Analysis [11.135689359531105]
本稿では, リアルタイム情報収集分野において, RVNS と呼ばれる新しい実値負のサーベイモデルを提案する。
RVNSモデルは、データを識別する必要性からユーザーを除外し、実際の機密情報から逸脱した範囲からデータ一式をサンプリングすることのみを要求する。
論文 参考訳(メタデータ) (2025-07-23T04:05:33Z) - Adaptive Clipping for Privacy-Preserving Few-Shot Learning: Enhancing Generalization with Limited Data [12.614480013684759]
そこで我々は,メタクリップ(Meta-Clip)と呼ばれる新しい手法を導入する。
トレーニング中にクリッピング閾値を動的に調整することにより、アダプティブクリッピング法は機密情報の開示をきめ細かな制御を可能にする。
我々は,既存プライバシ保存技術に比べて優れたトレードオフを示すとともに,実用上の劣化を最小限に抑えるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-27T05:14:18Z) - Linear-Time User-Level DP-SCO via Robust Statistics [55.350093142673316]
ユーザレベルの差分プライベート凸最適化(DP-SCO)は、マシンラーニングアプリケーションにおけるユーザのプライバシ保護の重要性から、大きな注目を集めている。
微分プライベート勾配勾配(DP-SGD)に基づくような現在の手法は、しばしば高雑音蓄積と準最適利用に苦しむ。
これらの課題を克服するために、ロバストな統計、特に中央値とトリミング平均を利用する新しい線形時間アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-13T02:05:45Z) - Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning Application [0.5452584641316627]
データ共有におけるプライバシー問題に対処する様々な手法が提案されている。
これらの方法は、しばしばデータユーティリティを劣化させ、機械学習(ML)モデルの性能に影響を与える。
本稿では,情報損失を同時に最小化し,攻撃に対する防御を最大化する新しい多目的最適化モデルを提案する。
論文 参考訳(メタデータ) (2025-01-02T01:52:36Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - The Data Minimization Principle in Machine Learning [61.17813282782266]
データ最小化は、収集、処理、保持されるデータの量を減らすことを目的としている。
様々な国際データ保護規制によって支持されている。
しかし、厳密な定式化が欠如しているため、その実践的な実装は依然として課題である。
論文 参考訳(メタデータ) (2024-05-29T19:40:27Z) - Synergizing Privacy and Utility in Data Analytics Through Advanced Information Theorization [2.28438857884398]
本稿では,高次元画像データに適したノイズ注入技術,ロバストな特徴抽出のための変分オートエンコーダ(VAE),構造化データプライバシに最適化された期待最大化(EM)アプローチの3つの高度なアルゴリズムを紹介する。
本手法は,機密属性と変換データ間の相互情報を著しく低減し,プライバシーを向上する。
この研究は、さまざまなデータタイプにまたがってプライバシ保護アルゴリズムをデプロイするための柔軟で効果的な戦略を提供することによって、この分野に貢献する。
論文 参考訳(メタデータ) (2024-04-24T22:58:42Z) - Data Collaboration Analysis with Orthonormal Basis Selection and Alignment [2.928964540437144]
Data Collaboration (DC)は、複数のパーティがプライベートデータセットを公開することなく、モデルを共同でトレーニングすることを可能にする。
既存の理論は、秘密の基地と同じ部分空間にまたがる任意の標的基底は十分であると主張する。
我々は、秘密ベースとターゲットベースの両方で正規性制約を明示的に強制する新しいDCフレームワークであるOrthonormal Data Collaboration(ODC)を紹介する。
論文 参考訳(メタデータ) (2024-03-05T08:52:16Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。