論文の概要: Data value estimation on private gradients
- arxiv url: http://arxiv.org/abs/2412.17008v1
- Date: Sun, 22 Dec 2024 13:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:09.166475
- Title: Data value estimation on private gradients
- Title(参考訳): 個人勾配に基づくデータ値の推定
- Authors: Zijian Zhou, Xinyi Xu, Daniela Rus, Bryan Kian Hsiang Low,
- Abstract要約: 勾配に基づく機械学習(ML)法では、デファクト微分プライバシー技術がランダムノイズで勾配を乱している。
データバリュエーションは、トレーニングデータにMLのパフォーマンスを特性付け、DPの強制を必要とするプライバシーに配慮したアプリケーションで広く使用されている。
我々は,データ値推定の不確かさをパラドックス的に線形に評価し,評価予算を増大させるため,勾配に不規則な雑音を注入するというデフォルトのアプローチを伴わないことを示す。
提案手法は, 予測の不確実性の線形化を確実に除去するために, 慎重に相関ノイズを注入することである。
- 参考スコア(独自算出の注目度): 84.966853523107
- License:
- Abstract: For gradient-based machine learning (ML) methods commonly adopted in practice such as stochastic gradient descent, the de facto differential privacy (DP) technique is perturbing the gradients with random Gaussian noise. Data valuation attributes the ML performance to the training data and is widely used in privacy-aware applications that require enforcing DP such as data pricing, collaborative ML, and federated learning (FL). Can existing data valuation methods still be used when DP is enforced via gradient perturbations? We show that the answer is no with the default approach of injecting i.i.d.~random noise to the gradients because the estimation uncertainty of the data value estimation paradoxically linearly scales with more estimation budget, producing estimates almost like random guesses. To address this issue, we propose to instead inject carefully correlated noise to provably remove the linear scaling of estimation uncertainty w.r.t.~the budget. We also empirically demonstrate that our method gives better data value estimates on various ML tasks and is applicable to use cases including dataset valuation and~FL.
- Abstract(参考訳): 確率的勾配降下のような実践的な勾配に基づく機械学習(ML)法では、デファクト微分プライバシー(DP)技術はランダムなガウス雑音で勾配を摂動させる。
データバリュエーションは、MLのパフォーマンスをトレーニングデータに当てはめ、データ価格、コラボレーティブML、フェデレーションドラーニング(FL)といったDPを強制するプライバシーを意識したアプリケーションで広く使用されている。
DPが勾配摂動によって強制される場合、既存のデータ評価手法は依然として利用できるのか?
推定値の推定の不確実性はパラドックス的に線形にスケールし、推定予算が増加し、予測値がランダムな推定値とほぼ同程度になるため、この解は勾配に不規則なノイズを注入するデフォルトのアプローチと無関係であることを示す。
この問題に対処するため、我々は慎重に相関ノイズを注入し、評価の不確実性w.r.t.〜予算の線形スケーリングを確実に除去することを提案する。
また,本手法は各種MLタスクに対して,より優れたデータ値推定を行い,データセット評価やFLなどのユースケースに適用可能であることを実証的に実証した。
関連論文リスト
- Noise-Aware Differentially Private Variational Inference [5.4619385369457225]
差分プライバシー(DP)は統計的推測に対して堅牢なプライバシー保証を提供するが、これは下流アプリケーションにおいて信頼性の低い結果とバイアスをもたらす可能性がある。
勾配変動推定に基づく雑音を考慮した近似ベイズ推定法を提案する。
また,より正確な雑音認識後部評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T08:18:49Z) - What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions [34.99034454081842]
大規模な言語モデル(LLM)は、膨大な量の人間が書いたデータに基づいて訓練されているが、データプロバイダはしばしば信頼できないままである。
本研究では,勾配に基づくデータ評価手法であるインフルエンス関数に着目し,その拡張性を大幅に改善する。
既存のトレーニングコードを最小限の労力でデータバリュエーションコードに変換するソフトウェアパッケージであるLogIXも導入しています。
論文 参考訳(メタデータ) (2024-05-22T19:39:05Z) - Statistical Inference with Stochastic Gradient Methods under
$\phi$-mixing Data [9.77185962310918]
データが$phi$-mixingの場合の統計的推測のためのミニバッチSGD推定器を提案する。
信頼区間は、関連するミニバッチSGDプロシージャを用いて構成される。
提案手法はメモリ効率が高く,実装が容易である。
論文 参考訳(メタデータ) (2023-02-24T16:16:43Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。