論文の概要: Privacy-Preserving Teacher-Student Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.09599v1
- Date: Thu, 18 Feb 2021 20:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:33:11.194035
- Title: Privacy-Preserving Teacher-Student Deep Reinforcement Learning
- Title(参考訳): プライバシー保護教師による深層強化学習
- Authors: Parham Gohari, Bo Chen, Bo Wu, Matthew Hale, and Ufuk Topcu
- Abstract要約: 教師のトレーニングデータセットのプライバシーを保護するプライベートなメカニズムを開発しています。
このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。
- 参考スコア(独自算出の注目度): 23.934121758649052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning agents may learn complex tasks more efficiently
when they coordinate with one another. We consider a teacher-student
coordination scheme wherein an agent may ask another agent for demonstrations.
Despite the benefits of sharing demonstrations, however, potential adversaries
may obtain sensitive information belonging to the teacher by observing the
demonstrations. In particular, deep reinforcement learning algorithms are known
to be vulnerable to membership attacks, which make accurate inferences about
the membership of the entries of training datasets. Therefore, there is a need
to safeguard the teacher against such privacy threats. We fix the teacher's
policy as the context of the demonstrations, which allows for different
internal models across the student and the teacher, and contrasts the existing
methods. We make the following two contributions. (i) We develop a
differentially private mechanism that protects the privacy of the teacher's
training dataset. (ii) We propose a proximal policy-optimization objective that
enables the student to benefit from the demonstrations despite the
perturbations of the privacy mechanism. We empirically show that the algorithm
improves the student's learning upon convergence rate and utility.
Specifically, compared with an agent who learns the same task on its own, we
observe that the student's policy converges faster, and the converging policy
accumulates higher rewards more robustly.
- Abstract(参考訳): 深層強化学習エージェントは、互いに協調するときに複雑なタスクをより効率的に学習する。
エージェントが他のエージェントにデモンストレーションを依頼できる教師と学生の協調方式を考える。
しかし、デモを共有する利点にもかかわらず、潜在的な敵は、デモを観察することによって教師の機密情報を取得する可能性があります。
特に、深層強化学習アルゴリズムは、トレーニングデータセットのエントリのメンバシップに関する正確な推論を行うメンバーシップアタックに対して脆弱であることが知られている。
したがって、そのようなプライバシーの脅威から教師を保護する必要があります。
我々は,教師の方針を実演の文脈として固定し,生徒と教師の間で異なる内部モデルを可能にするとともに,既存の方法と対比する。
以下の2つの貢献を行います。
(i)教師のトレーニングデータセットのプライバシを保護する,異なるプライベートなメカニズムを開発する。
(ii) プライバシーメカニズムの乱用にもかかわらず、学生がデモの恩恵を受けることができる近位政策最適化目標を提案する。
このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。
具体的には,同一の課題を単独で学ぶエージェントと比較して,生徒の方針がより速く収束し,収束した政策がより高い報酬をより堅牢に蓄積するのを観察した。
関連論文リスト
- Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios [3.638198517970729]
実証から学ぶことは、類似エージェントでシステムを訓練する効果的な方法である。
しかし、生徒の能力の限界から外れたデモを自然に複製することは、効率的な学習を制限することができる。
本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T05:52:42Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Students Parrot Their Teachers: Membership Inference on Model
Distillation [54.392069096234074]
知識蒸留によるプライバシを,教師と学生のトレーニングセットの両方で研究する。
私たちの攻撃は、生徒セットと教師セットが類似している場合、または攻撃者が教師セットを毒できる場合、最強です。
論文 参考訳(メタデータ) (2023-03-06T19:16:23Z) - Guarded Policy Optimization with Imperfect Online Demonstrations [32.22880650876471]
Teacher-Student Frameworkは、教師エージェントが学生エージェントのトレーニングをガードする強化学習環境である。
成績の良い教師の政策を得るのは費用がかかるか、あるいは不可能である。
そこで我々は,任意の教師ポリシーを質素あるいは劣悪な性能で組み込む新しい手法を開発した。
論文 参考訳(メタデータ) (2023-03-03T06:24:04Z) - Explainable Action Advising for Multi-Agent Reinforcement Learning [32.49380192781649]
アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-15T04:15:03Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - FaceLeaks: Inference Attacks against Transfer Learning Models via
Black-box Queries [2.7564955518050693]
教師モデルと直接対話することなく,個人情報を漏らしたり推測したりできるかどうかを検討する。
集約レベル情報から推測する新しい手法を提案する。
本研究は,情報漏洩が現実の状況で広く利用されている伝達学習フレームワークに対する真のプライバシー上の脅威であることを示す。
論文 参考訳(メタデータ) (2020-10-27T03:02:40Z) - Feature Distillation With Guided Adversarial Contrastive Learning [41.28710294669751]
本研究は,教師から生徒へ対人ロバスト性を伝えるためのGACD ( Guided Adversarial Contrastive Distillation) を提案する。
アンカーとして訓練された教師モデルでは,教師に類似した特徴を抽出することが期待されている。
GACDでは、生徒は頑丈な特徴を抽出することを学ぶだけでなく、教師からの構造的知識も取得する。
論文 参考訳(メタデータ) (2020-09-21T14:46:17Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z) - Differentially Private Deep Learning with Smooth Sensitivity [144.31324628007403]
プライバシーに関する懸念を、差分プライバシーのレンズを通して研究する。
このフレームワークでは、モデルのトレーニングに使用されるデータの詳細が曖昧になるようにモデルを摂動することで、一般的にプライバシー保証が得られます。
過去の研究で使われた最も重要なテクニックの1つは、教師モデルのアンサンブルであり、ノイズの多い投票手順に基づいて生徒に情報を返す。
本研究では,イミュータブルノイズArgMaxと呼ばれるスムーズな感性を有する新しい投票機構を提案する。これは,ある条件下では,学生に伝達される有用な情報に影響を与えることなく,教師から非常に大きなランダムノイズを発生させることができる。
論文 参考訳(メタデータ) (2020-03-01T15:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。