論文の概要: Lower Bounds for Public-Private Learning under Distribution Shift
- arxiv url: http://arxiv.org/abs/2507.17895v1
- Date: Wed, 23 Jul 2025 19:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.520272
- Title: Lower Bounds for Public-Private Learning under Distribution Shift
- Title(参考訳): 流通シフト下における公共教育のための下層境界
- Authors: Amrith Setlur, Pratiksha Thaker, Jonathan Ullman,
- Abstract要約: 最も効果的な差分プライベート機械学習アルゴリズムは、公表された公開データの追加のソースに依存している。
パブリック・プライベート・ラーニングの既知下限を、2つのデータソースが大きな分散シフトを示す設定に拡張する。
- 参考スコア(独自算出の注目度): 5.801359003170208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The most effective differentially private machine learning algorithms in practice rely on an additional source of purportedly public data. This paradigm is most interesting when the two sources combine to be more than the sum of their parts. However, there are settings such as mean estimation where we have strong lower bounds, showing that when the two data sources have the same distribution, there is no complementary value to combining the two data sources. In this work we extend the known lower bounds for public-private learning to setting where the two data sources exhibit significant distribution shift. Our results apply to both Gaussian mean estimation where the two distributions have different means, and to Gaussian linear regression where the two distributions exhibit parameter shift. We find that when the shift is small (relative to the desired accuracy), either public or private data must be sufficiently abundant to estimate the private parameter. Conversely, when the shift is large, public data provides no benefit.
- Abstract(参考訳): 事実上最も効果的な差分プライベート機械学習アルゴリズムは、公開データの追加のソースに依存している。
このパラダイムは、2つの情報源がそれぞれの部分の和以上になるときに最も興味深い。
しかし、2つのデータソースが同じ分布を持つ場合、2つのデータソースを組み合わせるのに相補的な価値がないことを示す。
本研究では、2つのデータソースが大きな分散シフトを示すような設定まで、パブリック・プライベート・ラーニングの既知の下限を拡張した。
この結果は, 2つの分布が異なる手段を持つガウス平均推定法と, 2つの分布がパラメータシフトを示すガウス線形回帰法の両方に適用できる。
シフトが小さい場合(所望の精度に対して)、公開データまたはプライベートデータは、プライベートパラメータを推定するのに十分な量でなければならない。
逆に、シフトが大きい場合には、公開データにメリットはありません。
関連論文リスト
- Private Model Personalization Revisited [13.4143747448136]
共有表現フレームワークにおけるユーザレベルの差分プライバシー(DP)に基づくモデルパーソナライゼーションについて検討する。
我々のゴールは、共有埋め込みと局所的な低次元表現を極小リスクでプライベートに回収することである。
共有埋め込みをプライベートに学習し、マージンベースの精度保証を導出するための情報理論構築を提案する。
論文 参考訳(メタデータ) (2025-06-24T00:57:17Z) - Mutual Information Multinomial Estimation [53.58005108981247]
相互情報(MI)の推定は、データサイエンスと機械学習の基本的な課題である。
我々の主な発見は、データ分布の予備的な推定が、劇的に予測に役立ちます。
非ガウス的合成問題を含む多種多様な課題に対する実験は,本手法の利点を実証している。
論文 参考訳(メタデータ) (2024-08-18T06:27:30Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - On the Benefits of Public Representations for Private Transfer Learning under Distribution Shift [40.553022057469285]
一般のプレトレーニングは、プライベートトレーニングをスクラッチから最大67%改善できることを示す。
この現象の理論的説明として、公開データとプライベートデータが低次元表現を共有している場合、公開表現は、プライベートトレーニングのサンプルの複雑さを改善することができることを示す。
論文 参考訳(メタデータ) (2023-12-24T21:46:14Z) - General Gaussian Noise Mechanisms and Their Optimality for Unbiased Mean
Estimation [58.03500081540042]
プライベート平均推定に対する古典的なアプローチは、真の平均を計算し、バイアスのないがおそらく相関のあるガウスノイズを加えることである。
すべての入力データセットに対して、集中的な差分プライバシーを満たす非バイアス平均推定器が、少なくとも多くのエラーをもたらすことを示す。
論文 参考訳(メタデータ) (2023-01-31T18:47:42Z) - Private Estimation with Public Data [10.176795938619417]
少人数の公開データへのアクセスによる差分プライベート(DP)推定について検討する。
DPの制約の下では、d+1公開データサンプルは、プライベートデータ分布のレンジパラメータへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-16T22:46:44Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - Collaborative Learning of Distributions under Heterogeneity and
Communication Constraints [35.82172666266493]
機械学習では、ユーザはしばしば、データを生成するディストリビューションを学ぶために協力する必要がある。
まず、ユーザはサーバと通信して中央分布を学習し、協調する。
そして、学習した中央分布を微調整して、ユーザの個々の分布を推定する。
論文 参考訳(メタデータ) (2022-06-01T18:43:06Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Adapting deep generative approaches for getting synthetic data with
realistic marginal distributions [0.0]
可変オートエンコーダ(VAE)のような深層生成モデルは、元のデータからこのような合成データセットを作成するための一般的なアプローチである。
本稿では,バイモーダルおよびスキュードデータに対処する新しい手法,PTVAE(pre-transformation variational autoencoders)を提案する。
その結果、PTVAEアプローチはバイモーダルデータとスキューデータの両方において他よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-05-14T15:47:20Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Distributionally-Robust Machine Learning Using Locally
Differentially-Private Data [14.095523601311374]
機械学習、特に回帰は、局所的に異なるプライベートデータセットを用いて検討する。
ローカルに微分プライベートなデータセットを用いた機械学習は、分散ロバスト最適化として書き直せることを示す。
論文 参考訳(メタデータ) (2020-06-24T05:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。