論文の概要: Privacy-Preserving Reinforcement Learning Beyond Expectation
- arxiv url: http://arxiv.org/abs/2203.10165v1
- Date: Fri, 18 Mar 2022 21:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 02:40:01.115456
- Title: Privacy-Preserving Reinforcement Learning Beyond Expectation
- Title(参考訳): プライバシ保護による強化学習
- Authors: Arezoo Rajabi, Bhaskar Ramasubramanian, Abdullah Al Maruf, Radha
Poovendran
- Abstract要約: 自動運転車のような機械学習アルゴリズムを備えたサイバーおよびサイバー物理システムは、環境を人間と共有する。
システム(またはエージェント)の振る舞いを1人以上のユーザの好みに合わせることが重要である。
エージェントが未知の環境で行動を学ぶ必要がある場合を考える。
- 参考スコア(独自算出の注目度): 6.495883501989546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber and cyber-physical systems equipped with machine learning algorithms
such as autonomous cars share environments with humans. In such a setting, it
is important to align system (or agent) behaviors with the preferences of one
or more human users. We consider the case when an agent has to learn behaviors
in an unknown environment. Our goal is to capture two defining characteristics
of humans: i) a tendency to assess and quantify risk, and ii) a desire to keep
decision making hidden from external parties. We incorporate cumulative
prospect theory (CPT) into the objective of a reinforcement learning (RL)
problem for the former. For the latter, we use differential privacy. We design
an algorithm to enable an RL agent to learn policies to maximize a CPT-based
objective in a privacy-preserving manner and establish guarantees on the
privacy of value functions learned by the algorithm when rewards are
sufficiently close. This is accomplished through adding a calibrated noise
using a Gaussian process mechanism at each step. Through empirical evaluations,
we highlight a privacy-utility tradeoff and demonstrate that the RL agent is
able to learn behaviors that are aligned with that of a human user in the same
environment in a privacy-preserving manner
- Abstract(参考訳): 自動運転車のような機械学習アルゴリズムを備えたサイバーおよびサイバー物理システムは、環境を人間と共有する。
このような環境では、システム(またはエージェント)の振る舞いを1人以上のユーザの好みに合わせることが重要である。
エージェントが未知の環境で行動を学ぶ必要がある場合を考える。
私たちの目標は、人間の2つの特徴を捉えることです。
一 リスクを評価し定量化する傾向及び
二 決定を外部の当事者から隠蔽し続けたいという願望
前者に対する強化学習(rl)問題の目的に累積的予測理論(cpt)を取り入れる。
後者では、差分プライバシーを使用します。
我々は,プライバシ保存方式でCPTに基づく目的を最大化するためのポリシーを学習可能なアルゴリズムを設計し,報酬が十分近い場合には,アルゴリズムが学習した価値関数のプライバシを保証する。
これは各ステップでガウス過程機構を用いて校正ノイズを加えることで達成される。
経験的評価を通じて,プライバシ利用のトレードオフを強調し,rlエージェントが,同じ環境において同一のユーザと協調する動作を,プライバシ保護の方法で学習できることを実証する。
関連論文リスト
- PEaRL: Personalized Privacy of Human-Centric Systems using Early-Exit Reinforcement Learning [0.5317624228510748]
本稿では,個人の行動パターンや嗜好に合わせて,プライバシ保護を強化するシステムPEaRLを紹介する。
どちらのシステムでも、PEaRLはプライバシー保護を31%強化し、それに対応するユーティリティーの24%を削減している。
論文 参考訳(メタデータ) (2024-03-09T10:24:12Z) - Group Decision-Making among Privacy-Aware Agents [2.4401219403555814]
個人のプライバシーを維持し、効果的な社会学習を可能にすることはどちらも重要なデシダータであるが、基本的には互いに相反しているように見える。
差分プライバシー(DP)に基づく厳密な統計的保証を用いて情報漏洩を制御する。
その結果,グループ意思決定の結果の質,学習精度,通信コスト,エージェントが備えているプライバシー保護の水準の両面でのトレードオフの性質が明らかになった。
論文 参考訳(メタデータ) (2024-02-13T01:38:01Z) - Your Room is not Private: Gradient Inversion Attack on Reinforcement
Learning [47.96266341738642]
プライバシーは、ロボットが実質的な個人情報にアクセスすることによって、具体化されたAIの領域における重要な関心事として浮上する。
本稿では, 状態, 行動, 監視信号の再構成に勾配インバージョンを利用する, 値ベースアルゴリズムと勾配ベースアルゴリズムに対する攻撃を提案する。
論文 参考訳(メタデータ) (2023-06-15T16:53:26Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - adaPARL: Adaptive Privacy-Aware Reinforcement Learning for
Sequential-Decision Making Human-in-the-Loop Systems [0.5414308305392761]
強化学習(Reinforcement Learning, RL)は, 各種アプリケーションにおけるルールベースアプローチと比較して, 数多くの利点を示す。
本稿では,プライバシを意識したRLの適応的アプローチであるadaPARLを提案する。
AdaPARLは、人間の振る舞いや好みに応じて、パーソナライズされたプライバシユーティリティトレードオフを提供する。
論文 参考訳(メタデータ) (2023-03-07T21:55:22Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Tight Auditing of Differentially Private Machine Learning [77.38590306275877]
プライベート機械学習では、既存の監査メカニズムは厳格である。
彼らは不確実な最悪の仮定の下でのみ厳密な見積もりを行う。
我々は、自然(逆向きではない)データセットの厳密なプライバシー推定を得られる改善された監査スキームを設計する。
論文 参考訳(メタデータ) (2023-02-15T21:40:33Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Reinforcement Learning Beyond Expectation [11.428014000851535]
累積予測理論 (cumulative prospect theory, cpt) は、人間が利益と損失を異なる視点で見る傾向をモデル化することが実証的に示されているパラダイムである。
本稿では,自律エージェントが未知の環境で行動を学ぶ必要がある環境について考察する。
エージェントに人間のユーザーの行動を密接に模倣する能力を与えるために、我々はCPTベースのコストを最適化する。
論文 参考訳(メタデータ) (2021-03-29T20:35:25Z) - Tempered Sigmoid Activations for Deep Learning with Differential Privacy [33.574715000662316]
活性化関数の選択は、プライバシー保護の深層学習の感度を束縛することの中心であることを示す。
我々は,MNIST,FashionMNIST,CIFAR10に対して,学習手順の基礎を変更することなく,新たな最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-07-28T13:19:45Z) - Cooperative Inverse Reinforcement Learning [64.60722062217417]
協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
論文 参考訳(メタデータ) (2016-06-09T22:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。