論文の概要: Benchmarking the Utility of Privacy-Preserving Cox Regression Under Data-Driven Clipping Bounds: A Multi-Dataset Simulation Study
- arxiv url: http://arxiv.org/abs/2604.21491v1
- Date: Thu, 23 Apr 2026 09:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.426229
- Title: Benchmarking the Utility of Privacy-Preserving Cox Regression Under Data-Driven Clipping Bounds: A Multi-Dataset Simulation Study
- Title(参考訳): データ駆動クリッピング境界下でのプライバシ保護コックス回帰の有用性のベンチマーク:マルチデータセットシミュレーションによる研究
- Authors: Keita Fukuyama, Yukiko Mori, Tomohiro Kuroda, Hiroaki Kikuchi,
- Abstract要約: 微分プライバシー(DP)は、個人のプライバシーを保証する数学的枠組みである。
本研究では,データ駆動クリッピング境界を持つDP機構がCox比例ハザードモデルに与える影響を系統的に評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differential privacy (DP) is a mathematical framework that guarantees individual privacy; however, systematic evaluation of its impact on statistical utility in survival analyses remains limited. In this study, we systematically evaluated the impact of DP mechanisms (Laplace mechanism and Randomized Response) with data-driven clipping bounds on the Cox proportional hazards model, using 5 clinical datasets ($n = 168$--$6{,}524$), 15 levels of $\varepsilon$ (0.1--1000), and $B = 1{,}000$ Monte Carlo iterations. The data-driven clipping bounds used here are observed min/max and therefore do not provide formal $\varepsilon$-DP guarantees; the results represent an optimistic lower bound on utility degradation under formal DP. We compared three types of input perturbations (covariates only, all inputs, and the discrete-time model) with output perturbations (dfbeta-based sensitivity), using loss of significance rate (LSR), C-index, and coefficient bias as metrics. At standard DP levels ($\varepsilon \leq 1$), approximately 90% (90--94%) of the significant covariates lost significance, even in the largest dataset ($n = 6{,}524$), and the predictive performance approached random levels (test C-index $\approx 0.5$) under many conditions. Among the input perturbation approaches, perturbing only covariates preserved the risk-set structure and achieved the best recovery, whereas output perturbation (dfbeta-based sensitivity) maintained near-baseline performance at $\varepsilon \geq 5$. At $n \approx 3{,}000$, the significance recovered rapidly at $\varepsilon = 3$--10; however, in practice, $\varepsilon \geq 10$ (for predictive performance) to $\varepsilon \geq 30$--60 (for significance preservation) is required. In the moderate-to-high $\varepsilon$ range, false-positive rates increased for variables whose baseline $p$-values were near the significance threshold.
- Abstract(参考訳): 差分プライバシー(DP)は個人のプライバシーを保証する数学的枠組みである。
本研究では,5つの臨床データセット(n = 168$--$6{,}524$),15レベルの$\varepsilon$ (0.1-1000),および$B = 1{,}000ドルのモンテカルロ反復を用いて,データ駆動クリッピング境界がコックス比例ハザードモデルに与える影響を系統的に評価した。
ここで使用されるデータ駆動クリッピング境界はmin/maxであり、従って正式な$\varepsilon$-DP保証は提供されない。
我々は,3種類の入力摂動(共変量,全入力,離散時間モデル)と出力摂動(dfbeta-based sensitivity)を比較した。
標準DPレベル(\varepsilon \leq 1$)では、有意な共変量の約90%(90-94%)が、最大のデータセット(n = 6{,}524$)であっても、多くの条件下でランダムなレベル(テスト C-index $\approx 0.5$)に近づいた。
入力摂動法では, 共変量のみの摂動がリスクセット構造を保存し, 最高の回復を達成したが, 出力摂動(dfbetaによる感度)は, ほぼベースライン性能を$\varepsilon \geq 5$で維持した。
$n \approx 3{,}000$ では、重要度は $\varepsilon = 3$--10 で急速に回復するが、実際には $\varepsilon \geq 10$ (予測性能) から $\varepsilon \geq 30$--60 (重要度保存のため) に戻す必要がある。
中間値から高値の$\varepsilon$の範囲では,基本値$p$-値が有意値に近い変数に対して偽陽性率が増加した。
関連論文リスト
- Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Fundamental Limitations of Favorable Privacy-Utility Guarantees for DP-SGD [7.787109481104569]
本稿では,DP-SGDを$f$差分プライバシーフレームワークで解析する。
小さい分離を強制することはノイズ乗算器$$に厳格な下限を課し、達成可能な効用を直接制限することを証明する。
実験により, この境界による雑音レベルは, 現実的な訓練環境において, 高い精度で劣化することが確認された。
論文 参考訳(メタデータ) (2026-01-15T09:50:36Z) - Nearly Optimal Differentially Private ReLU Regression [18.599299269974498]
微分プライバシ(DP)モデルにおいて、最も基本的な非学習問題の1つ、ReLU回帰について検討する。
我々は,1パスのミニバッチ一般化モデルパーセプトロンアルゴリズムを提案し,解析することで,$epsilon$と公開データの要求を緩和する。
論文 参考訳(メタデータ) (2025-03-08T02:09:47Z) - Almost Minimax Optimal Best Arm Identification in Piecewise Stationary Linear Bandits [55.957560311008926]
そこで本研究では,各文脈の平均値によって腕の質を計測するPSLBモデルを提案する。
PS$varepsilon$BAI$+$は、$varepsilon$-optimal armを、確率$ge 1-delta$と最小限のサンプルで識別することが保証される。
論文 参考訳(メタデータ) (2024-10-10T06:15:42Z) - S-BDT: Distributed Differentially Private Boosted Decision Trees [1.4785572573908556]
S-BDT: a novel $(varepsilon,delta)$-differentially private distributed gradient boosted decision tree (GBDT) learner。
S-BDTは、非球面多変量ガウス雑音に依存することにより、より少ないノイズを使用する。
GBDTが異なるサブポピュレーションから派生したデータのストリームを学習している状況において、S-BDTはエプシロンの保存をさらに改善することを示す。
論文 参考訳(メタデータ) (2023-09-21T13:09:10Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Differentially Private Image Classification from Features [53.75086935617644]
転送学習を活用することは、差分プライバシーを持つ大規模モデルのトレーニングに有効な戦略であることが示されている。
最近の研究によると、訓練済みモデルの最後の層だけをプライベートにトレーニングすることは、DPで最高のユーティリティを提供する。
論文 参考訳(メタデータ) (2022-11-24T04:04:20Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Outlier-robust sparse/low-rank least-squares regression and robust
matrix completion [1.0878040851637998]
ヘテロジニアス雑音を伴う統計的学習フレームワークにおける高次元最小二乗回帰について検討する。
また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレーサリグレス理論を提案する。
論文 参考訳(メタデータ) (2020-12-12T07:42:47Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。