論文の概要: adaPARL: Adaptive Privacy-Aware Reinforcement Learning for
Sequential-Decision Making Human-in-the-Loop Systems
- arxiv url: http://arxiv.org/abs/2303.04257v1
- Date: Tue, 7 Mar 2023 21:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:44:58.915472
- Title: adaPARL: Adaptive Privacy-Aware Reinforcement Learning for
Sequential-Decision Making Human-in-the-Loop Systems
- Title(参考訳): adaPARL: シーケンス決定のための適応型プライバシ・アウェア強化学習
- Authors: Mojtaba Taherisadr, Stelios Andrew Stavroulakis, Salma Elmalaki
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 各種アプリケーションにおけるルールベースアプローチと比較して, 数多くの利点を示す。
本稿では,プライバシを意識したRLの適応的アプローチであるadaPARLを提案する。
AdaPARLは、人間の振る舞いや好みに応じて、パーソナライズされたプライバシユーティリティトレードオフを提供する。
- 参考スコア(独自算出の注目度): 0.5414308305392761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) presents numerous benefits compared to rule-based
approaches in various applications. Privacy concerns have grown with the
widespread use of RL trained with privacy-sensitive data in IoT devices,
especially for human-in-the-loop systems. On the one hand, RL methods enhance
the user experience by trying to adapt to the highly dynamic nature of humans.
On the other hand, trained policies can leak the user's private information.
Recent attention has been drawn to designing privacy-aware RL algorithms while
maintaining an acceptable system utility. A central challenge in designing
privacy-aware RL, especially for human-in-the-loop systems, is that humans have
intrinsic variability and their preferences and behavior evolve. The effect of
one privacy leak mitigation can be different for the same human or across
different humans over time. Hence, we can not design one fixed model for
privacy-aware RL that fits all. To that end, we propose adaPARL, an adaptive
approach for privacy-aware RL, especially for human-in-the-loop IoT systems.
adaPARL provides a personalized privacy-utility trade-off depending on human
behavior and preference. We validate the proposed adaPARL on two IoT
applications, namely (i) Human-in-the-Loop Smart Home and (ii)
Human-in-the-Loop Virtual Reality (VR) Smart Classroom. Results obtained on
these two applications validate the generality of adaPARL and its ability to
provide a personalized privacy-utility trade-off. On average, for the first
application, adaPARL improves the utility by $57\%$ over the baseline and by
$43\%$ over randomization. adaPARL also reduces the privacy leak by $23\%$ on
average. For the second application, adaPARL decreases the privacy leak to
$44\%$ before the utility drops by $15\%$.
- Abstract(参考訳): 強化学習(rl)は、様々なアプリケーションにおけるルールベースのアプローチに比べて多くの利点がある。
iotデバイス、特にヒューマン・イン・ザ・ループシステムでプライバシに敏感なデータをトレーニングしたrlが普及したことで、プライバシの懸念が高まっている。
一方、RL法は、人間の非常にダイナミックな性質に適応しようと試みることで、ユーザエクスペリエンスを向上させる。
一方、トレーニングされたポリシーはユーザーの個人情報を漏洩させる可能性がある。
近年,プライバシを意識したRLアルゴリズムの設計に注目が集まっている。
プライバシを意識したRLの設計における中心的な課題は、特に人間-イン-ザ-ループシステムにおいて、人間には固有の多様性があり、その好みと行動が進化することである。
1つのプライバシーリーク軽減の効果は、同じ人間や異なる人間に対して、時間とともに異なる可能性がある。
したがって、プライバシを意識したRLのための固定モデルを設計することはできません。
そこで我々は,プライバシを意識したRLの適応的アプローチであるadaPARLを提案する。
adaPARLは、人間の振る舞いや好みに応じて、パーソナライズされたプライバシユーティリティトレードオフを提供する。
提案するadaparlを2つのiotアプリケーションで検証した。
一 スマートホーム及びスマートホーム
(ii)vr(human-in-the-loop virtual reality)スマート教室。
これら2つのアプリケーションで得られた結果は、adaPARLの汎用性と、パーソナライズされたプライバシユーティリティトレードオフを提供する能力を検証する。
最初のアプリケーションでは、平均して、adaPARLはベースライン上で57 %$、ランダム化で43 %$の改善を行う。
adaparlはまた、プライバシリークを平均で$23\%削減する。
第2のアプリケーションでは,adaparlがプライバシリークを4,4\%$に削減し,ユーティリティが15\%$に低下する。
関連論文リスト
- Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - PEaRL: Personalized Privacy of Human-Centric Systems using Early-Exit Reinforcement Learning [0.5317624228510748]
本稿では,個人の行動パターンや嗜好に合わせて,プライバシ保護を強化するシステムPEaRLを紹介する。
どちらのシステムでも、PEaRLはプライバシー保護を31%強化し、それに対応するユーティリティーの24%を削減している。
論文 参考訳(メタデータ) (2024-03-09T10:24:12Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - TeD-SPAD: Temporal Distinctiveness for Self-supervised
Privacy-preservation for video Anomaly Detection [59.04634695294402]
人間の監視のないビデオ異常検出(VAD)は複雑なコンピュータビジョンタスクである。
VADのプライバシー漏洩により、モデルは人々の個人情報に関連する不必要なバイアスを拾い上げ、増幅することができる。
本稿では,視覚的プライベート情報を自己管理的に破壊する,プライバシーに配慮したビデオ異常検出フレームワークTeD-SPADを提案する。
論文 参考訳(メタデータ) (2023-08-21T22:42:55Z) - On Differential Privacy for Federated Learning in Wireless Systems with
Multiple Base Stations [90.53293906751747]
複数の基地局とセル間干渉を持つ無線システムにおける連合学習モデルを考える。
本稿では,学習過程の収束挙動を,その最適性ギャップの上限を導出することによって示す。
提案するスケジューラは,ランダムなスケジューラと比較して予測平均精度を向上する。
論文 参考訳(メタデータ) (2022-08-25T03:37:11Z) - Production of Categorical Data Verifying Differential Privacy:
Conception and Applications to Machine Learning [0.0]
差別化プライバシは、プライバシとユーティリティのトレードオフの定量化を可能にする正式な定義である。
ローカルDP(LDP)モデルでは、ユーザはデータをサーバに送信する前に、ローカルにデータをサニタイズすることができる。
いずれの場合も、微分プライベートなMLモデルは、非プライベートなモデルとほぼ同じユーティリティメトリクスを達成できると結論付けました。
論文 参考訳(メタデータ) (2022-04-02T12:50:14Z) - Privacy-Preserving Reinforcement Learning Beyond Expectation [6.495883501989546]
自動運転車のような機械学習アルゴリズムを備えたサイバーおよびサイバー物理システムは、環境を人間と共有する。
システム(またはエージェント)の振る舞いを1人以上のユーザの好みに合わせることが重要である。
エージェントが未知の環境で行動を学ぶ必要がある場合を考える。
論文 参考訳(メタデータ) (2022-03-18T21:28:29Z) - Adaptive Control of Differentially Private Linear Quadratic Systems [5.414308305392762]
差分プライバシー制約下での強化学習(RL)における後悔の問題について検討する。
プライバシ保護を保証しながらサブ線形後悔を達成できる,最初のプライベートRLアルゴリズムであるPRLを開発した。
論文 参考訳(メタデータ) (2021-08-26T03:06:22Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。