論文の概要: Improved Regret for Differentially Private Exploration in Linear MDP
- arxiv url: http://arxiv.org/abs/2202.01292v1
- Date: Wed, 2 Feb 2022 21:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 14:23:21.646778
- Title: Improved Regret for Differentially Private Exploration in Linear MDP
- Title(参考訳): 線形mdpにおける微分的個人探査に対する後悔の改善
- Authors: Dung Daniel Ngo, Giuseppe Vietri, Zhiwei Steven Wu
- Abstract要約: 医療記録などのセンシティブなデータに依存する環境におけるシーケンシャルな意思決定におけるプライバシ保護探索について検討する。
我々は、エピソード数に対して$O(sqrtK)$を最適に依存した、改善された後悔率を持つプライベートアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 31.567811502343552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study privacy-preserving exploration in sequential decision-making for
environments that rely on sensitive data such as medical records. In
particular, we focus on solving the problem of reinforcement learning (RL)
subject to the constraint of (joint) differential privacy in the linear MDP
setting, where both dynamics and rewards are given by linear functions. Prior
work on this problem due to Luyo et al. (2021) achieves a regret rate that has
a dependence of $O(K^{3/5})$ on the number of episodes $K$. We provide a
private algorithm with an improved regret rate with an optimal dependence of
$O(\sqrt{K})$ on the number of episodes. The key recipe for our stronger regret
guarantee is the adaptivity in the policy update schedule, in which an update
only occurs when sufficient changes in the data are detected. As a result, our
algorithm benefits from low switching cost and only performs $O(\log(K))$
updates, which greatly reduces the amount of privacy noise. Finally, in the
most prevalent privacy regimes where the privacy parameter $\epsilon$ is a
constant, our algorithm incurs negligible privacy cost -- in comparison with
the existing non-private regret bounds, the additional regret due to privacy
appears in lower-order terms.
- Abstract(参考訳): 医療記録などの機密データに依存する環境における逐次的意思決定におけるプライバシ保護探索について検討する。
特に、線形MDP設定において、(結合)差分プライバシーの制約を受ける強化学習(RL)の問題を解決することに焦点を当て、線形関数によって力学と報酬が与えられる。
Luyo et al. (2021)によるこの問題の先行研究は、エピソード数$K$に対して$O(K^{3/5})$に依存する後悔率を達成する。
我々は、エピソード数に依存する$o(\sqrt{k})$を最適に依存し、後悔率を向上させるプライベートアルゴリズムを提供する。
強い後悔の保証の鍵となるレシピは、ポリシー更新スケジュールにおける適応性であり、データに十分な変更が検出された場合にのみ更新が発生する。
その結果、アルゴリズムはスイッチングコストが低く、O(\log(K))$更新しか実行せず、プライバシノイズを大幅に低減します。
最後に、プライバシパラメーター$\epsilon$が一定である最も一般的なプライバシー制度では、アルゴリズムは、既存の非プライベートな後悔の限界と比べて、プライバシによる追加の後悔は下位の条件で現れるため、必然的なプライバシコストを負う。
関連論文リスト
- Private Fine-tuning of Large Language Models with Zeroth-order
Optimization [54.24600476755372]
DP-ZO(DP-ZO)は、ゼロオーダー最適化を民営化し、トレーニングデータのプライバシを保存する、大規模言語モデルを微調整する新しい手法である。
DP-ZOは、SQuADから1000のトレーニングサンプルにOPT-66Bを微調整すると、プライバシが1,10-5)$-DPになるため、わずか1.86%のパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - On the Complexity of Differentially Private Best-Arm Identification with
Fixed Confidence [16.295693624977563]
我々は、$epsilon$-global Differential Privacyの下で、信頼度を固定したベストアーム識別の問題について検討する。
われわれの限界は、プライバシー予算によって2つのプライバシー体制が存在することを示唆している。
我々はトップ2アルゴリズムの$epsilon$-global DP変種であるAdaP-TTを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:07:25Z) - "Private Prediction Strikes Back!'' Private Kernelized Nearest Neighbors
with Individual Renyi Filter [31.970442970375153]
Ind-KNN(Personalized Nearest Neighbor)というアルゴリズムを提案する。
Ind-KNNはデータセットの変更に対して容易に更新可能であり、個々のユーザレベルでR'enyiを正確に制御できる。
以上の結果から,Ind-KNNは4つの視覚および言語タスクにおいて,既存のプライベート予測手法よりも,幅広い$epsilon$の精度を一貫して向上させることがわかった。
論文 参考訳(メタデータ) (2023-06-12T19:14:45Z) - TAN Without a Burn: Scaling Laws of DP-SGD [70.7364032297978]
近年、ディープニューラルネットワーク(DNN)を訓練するための微分プライベートな手法が進歩している。
プライバシ分析とノイズのあるトレーニングの実験的振る舞いを分離し、最小限の計算要件でトレードオフを探索する。
我々は,提案手法をCIFAR-10とImageNetに適用し,特にImageNetの最先端性を,上位1点の精度で向上させる。
論文 参考訳(メタデータ) (2022-10-07T08:44:35Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for
Private Learning [74.73901662374921]
差分プライベートモデルは、モデルが多数のトレーニング可能なパラメータを含む場合、ユーティリティを劇的に劣化させる。
偏微分プライベート深層モデルの精度向上のためのアルゴリズムemphGradient Embedding Perturbation (GEP)を提案する。
論文 参考訳(メタデータ) (2021-02-25T04:29:58Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Local Differential Privacy for Regret Minimization in Reinforcement
Learning [33.679678503441565]
有限水平マルコフ決定過程(MDP)の文脈におけるプライバシーの研究
ローカルディファレンシャルプライバシ(LDP)フレームワークを活用することで、RLのプライバシの概念を定式化する。
本稿では,$varepsilon$-LDP要求を満たす楽観的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:13:26Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。