論文の概要: Preventing Imitation Learning with Adversarial Policy Ensembles
- arxiv url: http://arxiv.org/abs/2002.01059v2
- Date: Sun, 2 Aug 2020 23:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 05:35:11.089103
- Title: Preventing Imitation Learning with Adversarial Policy Ensembles
- Title(参考訳): 対立政策を組み込んだ模倣学習の防止
- Authors: Albert Zhan, Stas Tiomkin, Pieter Abbeel
- Abstract要約: 模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
- 参考スコア(独自算出の注目度): 79.81807680370677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning can reproduce policies by observing experts, which poses a
problem regarding policy privacy. Policies, such as human, or policies on
deployed robots, can all be cloned without consent from the owners. How can we
protect against external observers cloning our proprietary policies? To answer
this question we introduce a new reinforcement learning framework, where we
train an ensemble of near-optimal policies, whose demonstrations are guaranteed
to be useless for an external observer. We formulate this idea by a constrained
optimization problem, where the objective is to improve proprietary policies,
and at the same time deteriorate the virtual policy of an eventual external
observer. We design a tractable algorithm to solve this new optimization
problem by modifying the standard policy gradient algorithm. Our formulation
can be interpreted in lenses of confidentiality and adversarial behaviour,
which enables a broader perspective of this work. We demonstrate the existence
of "non-clonable" ensembles, providing a solution to the above optimization
problem, which is calculated by our modified policy gradient algorithm. To our
knowledge, this is the first work regarding the protection of policies in
Reinforcement Learning.
- Abstract(参考訳): 模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
人間のようなポリシーや、展開されたロボットに関するポリシーは、所有者の同意なしに全てクローン化できる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
この疑問に答えるために,我々は,外部のオブザーバが役に立たないことが保証される準最適政策のアンサンブルをトレーニングする,新たな強化学習フレームワークを導入する。
制約付き最適化問題では,プロプライエタリなポリシーを改善することを目的としており,同時に外部オブザーバの仮想ポリシーを劣化させる。
我々は,この新たな最適化問題を解決するために,標準ポリシー勾配アルゴリズムを改良し,扱いやすいアルゴリズムを設計した。
我々の定式化は、機密性や敵対行動のレンズで解釈できるので、この研究のより広い視点で見ることができます。
本稿では,上記の最適化問題に対する解として,改良ポリシー勾配アルゴリズムによって計算された「非可解」アンサンブルの存在を実証する。
我々の知る限り、これは強化学習における政策の保護に関する最初の研究である。
関連論文リスト
- Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation [4.837737516460689]
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-24T10:59:32Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Online Learning with Off-Policy Feedback [18.861989132159945]
本研究では,オフポリシーフィードバックと呼ばれる部分的可観測性モデルの下で,対向的帯域幅問題におけるオンライン学習の問題点について検討する。
我々は,任意のコンパレータポリシーと行動ポリシーのミスマッチという自然な概念でスケールする後悔境界を保証するアルゴリズムのセットを提案する。
論文 参考訳(メタデータ) (2022-07-18T21:57:16Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。