論文の概要: Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees
- arxiv url: http://arxiv.org/abs/2510.16974v1
- Date: Sun, 19 Oct 2025 19:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.229714
- Title: Differentially Private Linear Regression and Synthetic Data Generation with Statistical Guarantees
- Title(参考訳): 統計的保証を伴う微分プライベート線形回帰と合成データ生成
- Authors: Shurong Lin, Aleksandra Slavković, Deekshith Reddy Bhoomireddy,
- Abstract要約: 社会科学では、小規模から中規模のデータセットは一般的であり、線形回帰(LR)は標準的である。
プライバシーに配慮した設定では、多くの研究は微分プライベート(DP)LRに焦点を当てているが、主に不確かさの定量化に限定した点推定に重点を置いている。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In social sciences, small- to medium-scale datasets are common and linear regression (LR) is canonical. In privacy-aware settings, much work has focused on differentially private (DP) LR, but mostly on point estimation with limited attention to uncertainty quantification. Meanwhile, synthetic data generation (SDG) is increasingly important for reproducibility studies, yet current DP LR methods do not readily support it. Mainstream SDG approaches are either tailored to discretized data, making them less suitable for continuous regression, or rely on deep models that require large datasets, limiting their use for the smaller, continuous data typical in social science. We propose a method for LR with valid inference under Gaussian DP: a DP bias-corrected estimator with asymptotic confidence intervals (CIs) and a general SDG procedure in which regression on the synthetic data matches our DP regression. Our binning-aggregation strategy is effective in small- to moderate-dimensional settings. Experiments show our method (1) improves accuracy over existing methods, (2) provides valid CIs, and (3) produces more reliable synthetic data for downstream ML tasks than current DP SDGs.
- Abstract(参考訳): 社会科学では、小規模から中規模のデータセットは一般的であり、線形回帰(LR)は標準的である。
プライバシーに配慮した設定では、多くの研究は微分プライベート(DP)LRに焦点を当てているが、主に不確かさの定量化に限定した点推定に重点を置いている。
一方、合成データ生成(SDG)は再現性研究においてますます重要になっているが、現在のDP LR法はそれを容易にはサポートしていない。
メインストリームのSDGアプローチは、離散化されたデータに適しているため、継続的回帰には適さないか、大規模なデータセットを必要とするディープモデルに依存しており、社会科学で典型的な、より小さく連続的なデータの使用を制限する。
提案手法は,漸近的信頼区間(CI)を有するDPバイアス補正推定器と,合成データに対する回帰がDP回帰と一致する一般SDG手順である。
ビンニング・アグリゲーション戦略は小から中程度の設定で有効である。
実験では,(1)既存の手法よりも精度が向上し,(2)有効なCIを提供し,(3)下流MLタスクのための信頼性の高い合成データを生成する。
関連論文リスト
- More Data or Better Algorithms: Latent Diffusion Augmentation for Deep Imbalanced Regression [0.0]
多くの実世界の回帰タスクでは、データ分布は著しく歪められ、モデルは大多数のサンプルから主に学習される。
このフレームワークは、優先度ベース生成を用いた条件拡散モデルを用いて、遅延表現空間における高品質な特徴を合成する。
3つのDIRベンチマークの実験は、全体の精度を維持しながら少数地域の大幅な改善を示している。
論文 参考訳(メタデータ) (2025-09-27T10:44:28Z) - A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - Better Rates for Private Linear Regression in the Proportional Regime via Aggressive Clipping [19.186034457189162]
一般的なアプローチは、サンプルごとの勾配の予想基準よりもクリッピング定数をはるかに大きく設定することである。
しかし、分析を単純化する一方で、これは経験的証拠がパフォーマンスを最適化することを示唆しているものとは対照的である。
我々の研究は、クリッピングが頻繁に起こる体制において、理論と実践のギャップを埋める。
論文 参考訳(メタデータ) (2025-05-22T07:34:27Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
本稿では,高次元一般化線形モデルにおけるオンライン推論に対する新しいアプローチを提案する。
提案手法は単一パスモードで動作し,全データセットアクセスや大次元要約統計ストレージを必要とする既存手法とは異なる。
我々の方法論的革新の核心は、動的目的関数に適した適応的降下アルゴリズムと、新しいオンラインデバイアス処理である。
論文 参考訳(メタデータ) (2024-05-28T15:36:48Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Federated Latent Class Regression for Hierarchical Data [5.110894308882439]
フェデレートラーニング(FL)は、多くのエージェントがローカルに保存されたデータを開示することなく、グローバル機械学習モデルのトレーニングに参加することを可能にする。
本稿では,新しい確率モデルである階層潜在クラス回帰(HLCR)を提案し,フェデレートラーニング(FEDHLCR)への拡張を提案する。
我々の推論アルゴリズムはベイズ理論から派生したもので、強い収束保証と過剰適合性を提供する。実験結果から、FEDHLCRは非IIDデータセットにおいても高速収束を提供することが示された。
論文 参考訳(メタデータ) (2022-06-22T00:33:04Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。