論文の概要: Secure Reinforcement Learning via Shuffle Privacy Model
- arxiv url: http://arxiv.org/abs/2411.11647v2
- Date: Tue, 26 Aug 2025 07:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 15:23:52.216002
- Title: Secure Reinforcement Learning via Shuffle Privacy Model
- Title(参考訳): シャッフルプライバシモデルによるセキュア強化学習
- Authors: Shaojie Bai, Mohammad Sadegh Talebi, Chengcheng Zhao, Peng Cheng, Jiming Chen,
- Abstract要約: 本稿では,表層学習のための最初の一般RLアルゴリズムであるShuffle Differentially Private Policy Eliminationを提案する。
分析の結果,SDPPEは,局所モデルよりも優れたプライバシー保護トレードオフを示すとともに,ほぼ最適の後悔の限界を達成していることがわかった。
この研究は、高度CPSにおけるセキュアなデータ駆動制御のためのシャッフルモデルの実現性を確立する。
- 参考スコア(独自算出の注目度): 23.688680166406627
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) is a powerful tool for sequential decision-making, but its application is often hindered by privacy concerns arising from its interaction data. This challenge is particularly acute in advanced Cyber-Physical Systems (CPS), where learning from operational and user data can expose systems to privacy inference attacks. Existing differential privacy (DP) models for RL are often inadequate: the centralized model requires a fully trusted server, creating a single point of failure risk, while the local model incurs significant performance degradation that is unsuitable for many control applications. This paper addresses this gap by leveraging the emerging shuffle model of privacy, an intermediate trust model that provides strong privacy guarantees without a centralized trust assumption. We present Shuffle Differentially Private Policy Elimination (SDP-PE), the first generic policy elimination-based algorithm for episodic RL under the shuffle model. Our method introduces a novel exponential batching schedule and a ``forgetting'' mechanism to balance the competing demands of privacy and learning performance. Our analysis shows that SDP-PE achieves a near-optimal regret bound, demonstrating a superior privacy-regret trade-off that significantly outperforms the local model. This work establishes the viability of the shuffle model for secure data-driven control in advanced CPS.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定のための強力なツールである。
この課題は、特に高度なCPS(Cyber-Physical Systems)において、運用データとユーザデータから学んだことが、プライバシ推論攻撃にシステムを公開することができる。
RLの既存の差分プライバシー(DP)モデルは、しばしば不適切である: 集中型モデルは、完全に信頼されたサーバを必要とし、単一障害点を生成し、一方、ローカルモデルは、多くの制御アプリケーションには適さない、大幅なパフォーマンス劣化を引き起こす。
本稿では、集中的な信頼前提なしに強力なプライバシー保証を提供する中間信頼モデルであるプライバシのシャッフルモデルを活用することで、このギャップに対処する。
本稿では,シャッフルモデルの下でのエピソードRLの一般政策除去アルゴリズムであるShuffle Differentially Private Policy Elimination (SDP-PE)を提案する。
提案手法では,新たな指数的バッチスケジュールと,プライバシと学習性能の競合する要求のバランスをとるための‘forgetting’機構を導入する。
分析の結果、SDP-PEは、局所モデルよりも優れたプライバシーとプライバシーのトレードオフを示す、ほぼ最適の後悔の限界を達成していることがわかった。
この研究は、高度CPSにおけるセキュアなデータ駆動制御のためのシャッフルモデルの実現性を確立する。
関連論文リスト
- Differentially Private Random Feature Model [52.468511541184895]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。
本手法は,プライバシを保護し,一般化誤差を導出する。
論文 参考訳(メタデータ) (2024-12-06T05:31:08Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Enhanced Privacy Bound for Shuffle Model with Personalized Privacy [32.08637708405314]
Differential Privacy(DP)は、ローカルユーザと中央データキュレーターの間の中間信頼サーバを導入する、強化されたプライバシプロトコルである。
これは、局所的にランダム化されたデータを匿名化しシャッフルすることで、中央のDP保証を著しく増幅する。
この研究は、各ユーザーごとにパーソナライズされたローカルプライバシを必要とする、より実践的な設定のために、中央のプライバシ境界を導出することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-25T16:11:56Z) - Differentially Private Aggregation via Imperfect Shuffling [64.19885806149958]
本稿では,メッセージがほぼ均一にシャッフルされる不完全なシャッフル差分プライバシモデルを導入し,キュレーターによるプライベートアグリゲーションの検証を行った。
驚くべきことに、不完全なシャッフルモデルには追加のエラーオーバーヘッドは必要ない。
論文 参考訳(メタデータ) (2023-08-28T17:34:52Z) - Echo of Neighbors: Privacy Amplification for Personalized Private
Federated Learning with Shuffle Model [21.077469463027306]
協調トレーニングの一般的なパラダイムであるフェデレートラーニングは、プライバシ攻撃に弱い。
この作業は、シャッフルモデルのプライバシー増幅効果を活用することで、パーソナライズされたローカルプライバシの下でのモデルプライバシを強化するために構築される。
私たちの知る限りでは、シャッフルがパーソナライズされたローカルプライバシに与える影響は、初めて考慮される。
論文 参考訳(メタデータ) (2023-04-11T21:48:42Z) - TAN Without a Burn: Scaling Laws of DP-SGD [70.7364032297978]
近年、ディープニューラルネットワーク(DNN)を訓練するための微分プライベートな手法が進歩している。
プライバシ分析とノイズのあるトレーニングの実験的振る舞いを分離し、最小限の計算要件でトレードオフを探索する。
我々は,提案手法をCIFAR-10とImageNetに適用し,特にImageNetの最先端性を,上位1点の精度で向上させる。
論文 参考訳(メタデータ) (2022-10-07T08:44:35Z) - Tight Differential Privacy Guarantees for the Shuffle Model with $k$-Randomized Response [6.260747047974035]
ほとんどの差分プライベート(DP)アルゴリズムは、サードパーティがデータセットやユーザがローカルにデータを摂動するローカルモデル上で作成したクエリにノイズを挿入することを前提としている。
最近提案されたシャッフルモデルは、中央パラダイムと局所パラダイムの中間フレームワークである。
合成データと実データの両方を用いて、シャッフルモデルのプライバシーユーティリティトレードオフと、民営化された中央データの比較実験を行う。
論文 参考訳(メタデータ) (2022-05-18T10:44:28Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Network Shuffling: Privacy Amplification via Random Walks [21.685747588753514]
ネットワーク/グラフ上でランダムウォーク方式でデータを交換する分散メカニズムであるネットワークシャッフルを導入する。
プライバシーの増幅率は、均一シャッフルのような他のプライバシーの増幅手法と類似していることが示される。
論文 参考訳(メタデータ) (2022-04-08T08:36:06Z) - Shuffle Private Linear Contextual Bandits [9.51828574518325]
シャッフル・アルゴリズム・トラスト・モデルに基づく線形文脈帯域の一般的な枠組みを提案する。
両方のインスタンス化が、ローカルモデルの精度を大幅に向上させる、後悔の保証につながることを証明します。
また, 合成データのシミュレーションにより, この後悔行動を検証する。
論文 参考訳(メタデータ) (2022-02-11T11:53:22Z) - Privacy Amplification via Shuffling for Linear Contextual Bandits [51.94904361874446]
ディファレンシャルプライバシ(DP)を用いた文脈線形バンディット問題について検討する。
プライバシのシャッフルモデルを利用して,JDP と LDP のプライバシ/ユーティリティトレードオフを実現することができることを示す。
以上の結果から,ローカルプライバシを保ちながらシャッフルモデルを活用することで,JDPとDPのトレードオフを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T15:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。