論文の概要: A Privacy-Preserving Data Collection Method for Diversified Statistical Analysis
- arxiv url: http://arxiv.org/abs/2507.17180v1
- Date: Wed, 23 Jul 2025 04:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.850094
- Title: A Privacy-Preserving Data Collection Method for Diversified Statistical Analysis
- Title(参考訳): 多様な統計分析のためのプライバシー保護データ収集手法
- Authors: Hao Jiang, Quan Zhou, Dongdong Zhao, Shangshang Yang, Wenjian Luo, Xingyi Zhang,
- Abstract要約: 本稿では, リアルタイム情報収集分野において, RVNS と呼ばれる新しい実値負のサーベイモデルを提案する。
RVNSモデルは、データを識別する必要性からユーザーを除外し、実際の機密情報から逸脱した範囲からデータ一式をサンプリングすることのみを要求する。
- 参考スコア(独自算出の注目度): 11.135689359531105
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data perturbation-based privacy-preserving methods have been widely adopted in various scenarios due to their efficiency and the elimination of the need for a trusted third party. However, these methods primarily focus on individual statistical indicators, neglecting the overall quality of the collected data from a distributional perspective. Consequently, they often fall short of meeting the diverse statistical analysis requirements encountered in practical data analysis. As a promising sensitive data perturbation method, negative survey methods is able to complete the task of collecting sensitive information distribution while protecting personal privacy. Yet, existing negative survey methods are primarily designed for discrete sensitive information and are inadequate for real-valued data distributions. To bridge this gap, this paper proposes a novel real-value negative survey model, termed RVNS, for the first time in the field of real-value sensitive information collection. The RVNS model exempts users from the necessity of discretizing their data and only requires them to sample a set of data from a range that deviates from their actual sensitive details, thereby preserving the privacy of their genuine information. Moreover, to accurately capture the distribution of sensitive information, an optimization problem is formulated, and a novel approach is employed to solve it. Rigorous theoretical analysis demonstrates that the RVNS model conforms to the differential privacy model, ensuring robust privacy preservation. Comprehensive experiments conducted on both synthetic and real-world datasets further validate the efficacy of the proposed method.
- Abstract(参考訳): データ摂動に基づくプライバシー保護手法は、その効率性と信頼できる第三者の必要性の排除により、様々なシナリオで広く採用されている。
しかし、これらの手法は主に個々の統計指標に焦点を当て、分布の観点から収集されたデータの全体的な品質を無視する。
その結果、実践的なデータ分析で遭遇する多様な統計分析要件を満たすに足りず、しばしば失敗する。
有望なセンシティブなデータ摂動手法として,個人のプライバシー保護を図りながら機密情報を収集する作業を完成させることができる。
しかし、既存のネガティブサーベイ手法は、主に個別の機密情報のために設計されており、実数値データ分布には不十分である。
このギャップを埋めるために,本研究では,実価値情報収集分野において,RVNSと呼ばれる新しい実価値負のサーベイモデルを提案する。
RVNSモデルは、データを識別する必要性からユーザーを除外し、実際の機密情報から逸脱した範囲からのデータのみをサンプリングすることを要求する。
さらに、センシティブな情報の分布を正確に把握するため、最適化問題を定式化し、それを解決するために新しいアプローチを採用する。
厳密な理論的分析は、RVNSモデルが微分プライバシモデルに準拠し、堅牢なプライバシ保護を保証することを証明している。
合成と実世界の両方のデータセットで実施した総合的な実験により,提案手法の有効性がさらに検証された。
関連論文リスト
- Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文 参考訳(メタデータ) (2025-08-03T13:15:52Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - The Data Minimization Principle in Machine Learning [61.17813282782266]
データ最小化は、収集、処理、保持されるデータの量を減らすことを目的としている。
様々な国際データ保護規制によって支持されている。
しかし、厳密な定式化が欠如しているため、その実践的な実装は依然として課題である。
論文 参考訳(メタデータ) (2024-05-29T19:40:27Z) - A Summary of Privacy-Preserving Data Publishing in the Local Setting [0.6749750044497732]
統計開示制御は、機密情報を匿名化して暴露するリスクを最小限にすることを目的としている。
マイクロデータの復号化に使用される現在のプライバシ保存技術について概説し、様々な開示シナリオに適したプライバシ対策を掘り下げ、情報損失と予測性能の指標を評価する。
論文 参考訳(メタデータ) (2023-12-19T04:23:23Z) - Simulation-based Bayesian Inference from Privacy Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Data Analytics with Differential Privacy [0.0]
我々は分散データとストリーミングデータを解析するための差分プライベートアルゴリズムを開発した。
分散モデルでは、学習の特定の問題 -- 分散形式で -- がデータのグローバルモデルであると考えている。
私たちは、ストリーミングモデル、ユーザーレベルのパンプライバシに対して、最も強力なプライバシー保証の1つを提供しています。
論文 参考訳(メタデータ) (2023-07-20T17:43:29Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - CEDAR: Communication Efficient Distributed Analysis for Regressions [9.50726756006467]
患者レベルのデータを共有することなく、複数のEHRデータベース上での分散学習への関心が高まっている。
本稿では,局所的な最適推定値を集約する通信効率のよい新しい手法を提案する。
本稿では,統計的推測法と差分プライバシーに関する理論的検討を行い,シミュレーションおよび実データ解析におけるその性能評価を行う。
論文 参考訳(メタデータ) (2022-07-01T09:53:44Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。