論文の概要: KL-regularization Itself is Differentially Private in Bandits and RLHF
- arxiv url: http://arxiv.org/abs/2505.18407v1
- Date: Fri, 23 May 2025 22:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.398931
- Title: KL-regularization Itself is Differentially Private in Bandits and RLHF
- Title(参考訳): KL規則化はバンドとRLHFの差分プライベートである
- Authors: Yizhou Zhang, Kishan Panaganti, Laixi Shi, Juba Ziani, Adam Wierman,
- Abstract要約: 差分プライバシー(DP)は、プライバシーのための厳格なフレームワークを提供し、単一のエントリで異なるデータセット間で統計的に区別できないデータ駆動アルゴリズムの出力を保証する。
「一般に、DPを保証するためには、アルゴリズム自体または出力に明示的にノイズを注入する必要があるが、既存のアルゴリズムの固有のランダム性は、DPを無償で達成する機会を与える。」
- 参考スコア(独自算出の注目度): 19.463863037999054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differential Privacy (DP) provides a rigorous framework for privacy, ensuring the outputs of data-driven algorithms remain statistically indistinguishable across datasets that differ in a single entry. While guaranteeing DP generally requires explicitly injecting noise either to the algorithm itself or to its outputs, the intrinsic randomness of existing algorithms presents an opportunity to achieve DP ``for free''. In this work, we explore the role of regularization in achieving DP across three different decision-making problems: multi-armed bandits, linear contextual bandits, and reinforcement learning from human feedback (RLHF), in offline data settings. We show that adding KL-regularization to the learning objective (a common approach in optimization algorithms) makes the action sampled from the resulting stochastic policy itself differentially private. This offers a new route to privacy guarantees without additional noise injection, while also preserving the inherent advantage of regularization in enhancing performance.
- Abstract(参考訳): 差分プライバシー(DP)は、プライバシーのための厳格なフレームワークを提供し、単一のエントリで異なるデータセット間で統計的に区別できないデータ駆動アルゴリズムの出力を保証する。
DPを保証するには、一般にアルゴリズム自体または出力に明示的にノイズを注入する必要があるが、既存のアルゴリズムの固有のランダム性は、DP ``for free'' を達成する機会を与える。
そこで本研究では,マルチアーム・バンディット,線形コンテキスト・バンディット,人間フィードバックからの強化学習(RLHF)という,3つの異なる意思決定問題におけるDP達成における正規化の役割について検討する。
学習目的(最適化アルゴリズムにおける一般的なアプローチ)にKL正規化を加えることで、結果の確率的ポリシ自体からサンプリングされたアクションを微分的にプライベートにすることを示す。
これにより、追加のノイズ注入なしにプライバシ保証への新たなルートが提供されると同時に、パフォーマンス向上における正規化の本質的にのメリットも保たれる。
関連論文リスト
- Forward Learning with Differential Privacy [27.164507868291913]
そこで我々は,DP-ULR(Disdifferial Private Unified Likelihood Ratio)という,ブループライエタリな前方学習アルゴリズムを提案する。
提案実験により,DP-ULRは,バックプロパゲーションに基づく従来の差分プライバシートレーニングアルゴリズムと比較して,競争性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-01T04:14:53Z) - Federated Learning with Differential Privacy: An Utility-Enhanced Approach [12.614480013684759]
フェデレーション学習は、クライアントのデータを共有する必要性をなくすことによって、データのプライバシを保護するための魅力的なアプローチとして現れている。
最近の研究では、フェデレートされた学習だけではプライバシーが保証されないことが示されている。
本稿では,これらのバニラ微分プライベートアルゴリズムを,ハールウェーブレット変換ステップとノイズの分散を著しく低減する新しいノイズ注入方式に基づいて修正する。
論文 参考訳(メタデータ) (2025-03-27T04:48:29Z) - Linear-Time User-Level DP-SCO via Robust Statistics [55.350093142673316]
ユーザレベルの差分プライベート凸最適化(DP-SCO)は、マシンラーニングアプリケーションにおけるユーザのプライバシ保護の重要性から、大きな注目を集めている。
微分プライベート勾配勾配(DP-SGD)に基づくような現在の手法は、しばしば高雑音蓄積と準最適利用に苦しむ。
これらの課題を克服するために、ロバストな統計、特に中央値とトリミング平均を利用する新しい線形時間アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-13T02:05:45Z) - Differentially Private Policy Gradient [48.748194765816955]
本研究では,プライバシノイズと信頼領域サイズとの間の適切なトレードオフを見出すことができ,性能的にプライベートなポリシー勾配アルゴリズムが得られることを示す。
この結果と課題の複雑さは,オンラインRLにおける既存のDPアルゴリズムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-01-31T12:11:13Z) - Differentially Private Random Feature Model [52.468511541184895]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。
本手法は,プライバシを保護し,一般化誤差を導出する。
論文 参考訳(メタデータ) (2024-12-06T05:31:08Z) - Noise Variance Optimization in Differential Privacy: A Game-Theoretic Approach Through Per-Instance Differential Privacy [7.264378254137811]
差分プライバシー(DP)は、個人をターゲットデータセットに含めることによる分布の変化を観察することにより、プライバシー損失を測定することができる。
DPは、AppleやGoogleのような業界巨人の機械学習におけるデータセットの保護において際立っている。
本稿では,PDPを制約として提案し,各データインスタンスのプライバシ損失を測定し,個々のインスタンスに適したノイズを最適化する。
論文 参考訳(メタデータ) (2024-04-24T06:51:16Z) - Dynamic Privacy Allocation for Locally Differentially Private Federated
Learning with Composite Objectives [10.528569272279999]
本稿では,強い凸性を持つが非滑らかな問題に対する差分プライベートなフェデレーション学習アルゴリズムを提案する。
提案アルゴリズムは、共有情報に人工ノイズを加えてプライバシーを確保するとともに、時間変化のノイズ分散を動的に割り当て、最適化誤差の上限を最小化する。
解析結果から,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-02T13:30:33Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Adaptive Differentially Private Empirical Risk Minimization [95.04948014513226]
本稿では,適応的(確率的)勾配摂動法を提案する。
ADP法は,バニラランダムノイズを付加した標準微分プライベート法と比較して,実用性保証を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-10-14T15:02:20Z) - RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial
Network [75.81653258081435]
GAN(Generative Adversarial Network)は,プライバシ保護の高い現実的なサンプルを生成する能力によって,近年注目を集めている。
しかし、医療記録や財務記録などの機密・私的な訓練例にGANを適用すると、個人の機密・私的な情報を漏らしかねない。
本稿では、学習中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T09:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。