論文の概要: Differentially Private Deep Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.05525v2
- Date: Wed, 09 Oct 2024 13:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:47.427980
- Title: Differentially Private Deep Model-Based Reinforcement Learning
- Title(参考訳): ディファレンシャル・プライベートな深層モデルに基づく強化学習
- Authors: Alexandre Rio, Merwan Barlier, Igor Colin, Albert Thomas,
- Abstract要約: 形式的な差分プライバシー保証を備えたモデルベースRLアルゴリズムであるPriMORLを紹介する。
PriMORLはオフラインデータから環境の軌道レベルのDPモデルのアンサンブルを学習する。
- 参考スコア(独自算出の注目度): 47.651861502104715
- License:
- Abstract: We address private deep offline reinforcement learning (RL), where the goal is to train a policy on standard control tasks that is differentially private (DP) with respect to individual trajectories in the dataset. To achieve this, we introduce PriMORL, a model-based RL algorithm with formal differential privacy guarantees. PriMORL first learns an ensemble of trajectory-level DP models of the environment from offline data. It then optimizes a policy on the penalized private model, without any further interaction with the system or access to the dataset. In addition to offering strong theoretical foundations, we demonstrate empirically that PriMORL enables the training of private RL agents on offline continuous control tasks with deep function approximations, whereas current methods are limited to simpler tabular and linear Markov Decision Processes (MDPs). We furthermore outline the trade-offs involved in achieving privacy in this setting.
- Abstract(参考訳): プライベートオフライン強化学習(RL)に対処し、データセット内の個々の軌跡に対して、差分プライベート(DP)である標準制御タスクのポリシーをトレーニングすることを目的とする。
そこで本研究では,形式的な差分プライバシー保証を備えたモデルベースRLアルゴリズムPriMORLを紹介する。
PriMORLはまず、オフラインデータから環境の軌道レベルのDPモデルのアンサンブルを学習する。
その後、システムとのさらなるインタラクションやデータセットへのアクセスなしに、ペナル化されたプライベートモデルのポリシを最適化する。
提案手法は,より単純な表形式および線形マルコフ決定過程(MDP)に限られているのに対し,PriMORLは深い関数近似を伴うオフライン連続制御タスクにおいて,プライベートRLエージェントのトレーニングを可能にすることを実証的に実証する。
さらに、この設定でプライバシーを達成する上でのトレードオフについても概説する。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Considerations on the Theory of Training Models with Differential
Privacy [13.782477759025344]
連合学習における協調学習は、各クライアントがそれぞれのローカルトレーニングデータの使用方法をコントロールしたいという一連のクライアントによって行われる。
差分プライバシーは、プライバシー漏洩を制限する方法の1つである。
論文 参考訳(メタデータ) (2023-03-08T15:56:27Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Offline Reinforcement Learning with Differential Privacy [16.871660060209674]
オフラインの強化学習問題は、金融、法、医療のアプリケーションでデータ駆動の意思決定ポリシーを学ぶ必要性によって、しばしば動機付けられます。
このようなリスクを確実に防止できる差分プライバシー保証付きオフラインRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-06-02T00:45:04Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Differentially Private Reinforcement Learning with Linear Function
Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。
本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文 参考訳(メタデータ) (2022-01-18T15:25:24Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。