論文の概要: Differentially Private Model-Based Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.05525v1
- Date: Thu, 8 Feb 2024 10:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:39:12.879048
- Title: Differentially Private Model-Based Offline Reinforcement Learning
- Title(参考訳): 個人モデルに基づくオフライン強化学習
- Authors: Alexandre Rio, Merwan Barlier, Igor Colin, Albert Thomas
- Abstract要約: DP-MORLは差分プライバシーを保証するアルゴリズムである。
環境のプライベートモデルは、まずオフラインデータから学習される。
次に、モデルベースのポリシー最適化を使用して、プライベートモデルからポリシーを導出します。
- 参考スコア(独自算出の注目度): 51.1231068185106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address offline reinforcement learning with privacy guarantees, where the
goal is to train a policy that is differentially private with respect to
individual trajectories in the dataset. To achieve this, we introduce DP-MORL,
an MBRL algorithm coming with differential privacy guarantees. A private model
of the environment is first learned from offline data using DP-FedAvg, a
training method for neural networks that provides differential privacy
guarantees at the trajectory level. Then, we use model-based policy
optimization to derive a policy from the (penalized) private model, without any
further interaction with the system or access to the input data. We empirically
show that DP-MORL enables the training of private RL agents from offline data
and we furthermore outline the price of privacy in this setting.
- Abstract(参考訳): オフラインの強化学習とプライバシ保証に対処し、データセットの個々のトラジェクトリに対して異なるプライベートなポリシーをトレーニングすることを目的としています。
これを実現するために,差分プライバシー保証付きmbrlアルゴリズムであるdp-morlを導入する。
環境のプライベートモデルは、軌道レベルで異なるプライバシ保証を提供するニューラルネットワークのトレーニング方法であるDP-FedAvgを使用して、オフラインデータから最初に学習される。
次に、モデルに基づくポリシー最適化を用いて、システムとのさらなるインタラクションや入力データへのアクセスなしに、(有料)プライベートモデルからポリシーを導出する。
DP-MORLがオフラインデータからプライベートRLエージェントのトレーニングを可能にすることを実証的に示し、さらにこの設定におけるプライバシの価格について概説する。
関連論文リスト
- LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - Personalized Differential Privacy for Ridge Regression [3.4751583941317166]
我々はPDP-OP(Personalized-DP Output Perturbation Method)を導入し、データポイントごとのプライバシレベルに応じてリッジ回帰モデルのトレーニングを可能にする。
我々は、PDP-OPの厳密なプライバシー証明と、結果モデルの正確性を保証する。
我々はPDP-OPがJorgensenらのパーソナライズされたプライバシー技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-30T16:00:14Z) - Private Fine-tuning of Large Language Models with Zeroth-order
Optimization [54.24600476755372]
DP-ZO(DP-ZO)は、ゼロオーダー最適化を民営化し、トレーニングデータのプライバシを保存する、大規模言語モデルを微調整する新しい手法である。
DP-ZOは、SQuADから1000のトレーニングサンプルにOPT-66Bを微調整すると、プライバシが1,10-5)$-DPになるため、わずか1.86%のパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Locally Differentially Private Distributed Online Learning with
Guaranteed Optimality [12.797344798828922]
本稿では,分散オンライン学習における差分プライバシーと学習精度を両立させる手法を提案する。
私たちの知る限りでは、このアルゴリズムは厳密な局所的な差分プライバシーと学習精度の両方を確実にする最初のアルゴリズムです。
論文 参考訳(メタデータ) (2023-06-25T02:05:34Z) - Considerations on the Theory of Training Models with Differential
Privacy [13.782477759025344]
連合学習における協調学習は、各クライアントがそれぞれのローカルトレーニングデータの使用方法をコントロールしたいという一連のクライアントによって行われる。
差分プライバシーは、プライバシー漏洩を制限する方法の1つである。
論文 参考訳(メタデータ) (2023-03-08T15:56:27Z) - Personalized PATE: Differential Privacy for Machine Learning with
Individual Privacy Guarantees [1.2691047660244335]
トレーニングデータ内に、パーソナライズされたプライバシ保証の異なるMLモデルのトレーニングを支援する3つの新しい方法を提案する。
実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-02-21T20:16:27Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。