論文の概要: Differentially Private Model-Based Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.05525v1
- Date: Thu, 8 Feb 2024 10:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:39:12.879048
- Title: Differentially Private Model-Based Offline Reinforcement Learning
- Title(参考訳): 個人モデルに基づくオフライン強化学習
- Authors: Alexandre Rio, Merwan Barlier, Igor Colin, Albert Thomas
- Abstract要約: DP-MORLは差分プライバシーを保証するアルゴリズムである。
環境のプライベートモデルは、まずオフラインデータから学習される。
次に、モデルベースのポリシー最適化を使用して、プライベートモデルからポリシーを導出します。
- 参考スコア(独自算出の注目度): 51.1231068185106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address offline reinforcement learning with privacy guarantees, where the
goal is to train a policy that is differentially private with respect to
individual trajectories in the dataset. To achieve this, we introduce DP-MORL,
an MBRL algorithm coming with differential privacy guarantees. A private model
of the environment is first learned from offline data using DP-FedAvg, a
training method for neural networks that provides differential privacy
guarantees at the trajectory level. Then, we use model-based policy
optimization to derive a policy from the (penalized) private model, without any
further interaction with the system or access to the input data. We empirically
show that DP-MORL enables the training of private RL agents from offline data
and we furthermore outline the price of privacy in this setting.
- Abstract(参考訳): オフラインの強化学習とプライバシ保証に対処し、データセットの個々のトラジェクトリに対して異なるプライベートなポリシーをトレーニングすることを目的としています。
これを実現するために,差分プライバシー保証付きmbrlアルゴリズムであるdp-morlを導入する。
環境のプライベートモデルは、軌道レベルで異なるプライバシ保証を提供するニューラルネットワークのトレーニング方法であるDP-FedAvgを使用して、オフラインデータから最初に学習される。
次に、モデルに基づくポリシー最適化を用いて、システムとのさらなるインタラクションや入力データへのアクセスなしに、(有料)プライベートモデルからポリシーを導出する。
DP-MORLがオフラインデータからプライベートRLエージェントのトレーニングを可能にすることを実証的に示し、さらにこの設定におけるプライバシの価格について概説する。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Considerations on the Theory of Training Models with Differential
Privacy [13.782477759025344]
連合学習における協調学習は、各クライアントがそれぞれのローカルトレーニングデータの使用方法をコントロールしたいという一連のクライアントによって行われる。
差分プライバシーは、プライバシー漏洩を制限する方法の1つである。
論文 参考訳(メタデータ) (2023-03-08T15:56:27Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Offline Reinforcement Learning with Differential Privacy [16.871660060209674]
オフラインの強化学習問題は、金融、法、医療のアプリケーションでデータ駆動の意思決定ポリシーを学ぶ必要性によって、しばしば動機付けられます。
このようなリスクを確実に防止できる差分プライバシー保証付きオフラインRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-06-02T00:45:04Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。