論文の概要: PAPER-HILT: Personalized and Adaptive Privacy-Aware Early-Exit for
Reinforcement Learning in Human-in-the-Loop Systems
- arxiv url: http://arxiv.org/abs/2403.05864v1
- Date: Sat, 9 Mar 2024 10:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:02:04.212129
- Title: PAPER-HILT: Personalized and Adaptive Privacy-Aware Early-Exit for
Reinforcement Learning in Human-in-the-Loop Systems
- Title(参考訳): paper-hilt: パーソナライズ・アダプティブ・プライバシ・アウェア・アーリーエクイットによるループ型人間学習の強化
- Authors: Mojtaba Taherisadr, Salma Elmalaki
- Abstract要約: 強化学習(RL)は、多様なHuman-in-the-loop(HITL)アプリケーションにおいて、従来のルールベースシステムよりも好まれる方法になりつつある。
本稿では,HITL環境におけるプライバシ保護を意識した早期退避アプローチを活用した,革新的で適応的なRL戦略の開発に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.6282068591820944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has increasingly become a preferred method over
traditional rule-based systems in diverse human-in-the-loop (HITL) applications
due to its adaptability to the dynamic nature of human interactions. However,
integrating RL in such settings raises significant privacy concerns, as it
might inadvertently expose sensitive user information. Addressing this, our
paper focuses on developing PAPER-HILT, an innovative, adaptive RL strategy
through exploiting an early-exit approach designed explicitly for privacy
preservation in HITL environments. This approach dynamically adjusts the
tradeoff between privacy protection and system utility, tailoring its operation
to individual behavioral patterns and preferences. We mainly highlight the
challenge of dealing with the variable and evolving nature of human behavior,
which renders static privacy models ineffective. PAPER-HILT's effectiveness is
evaluated through its application in two distinct contexts: Smart Home
environments and Virtual Reality (VR) Smart Classrooms. The empirical results
demonstrate PAPER-HILT's capability to provide a personalized equilibrium
between user privacy and application utility, adapting effectively to
individual user needs and preferences. On average for both experiments, utility
(performance) drops by 24%, and privacy (state prediction) improves by 31%.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、人間の相互作用の動的性質への適応性から、多様なヒト-イン-ループ(HITL)アプリケーションにおいて、従来のルールベースシステムよりも好まれる手法になりつつある。
しかし、そのような設定にRLを統合すると、機密性の高いユーザー情報を不注意に暴露する可能性があるため、重大なプライバシー上の懸念が生じる。
そこで本研究では,HITL環境におけるプライバシ保護を意識した早期退避アプローチを活用することで,革新的で適応的なRL戦略であるPAPER-HILTの開発に着目する。
このアプローチは、プライバシ保護とシステムユーティリティのトレードオフを動的に調整し、操作を個々の行動パターンや好みに合わせて調整する。
我々は主に、静的プライバシモデルに効果を及ぼさない人間の行動の可変性と進化的性質に対処することの課題を強調する。
PAPER-HILTの有効性は、スマートホーム環境とバーチャルリアリティ(VR)スマート教室の2つの異なる文脈で評価されている。
実験の結果,PAPER-HILTはユーザプライバシとアプリケーションユーティリティの個別均衡を提供し,個々のユーザニーズや好みに効果的に適応できることを示した。
どちらの実験も平均すると、ユーティリティ(パフォーマンス)は24%減少し、プライバシ(状態予測)は31%改善する。
関連論文リスト
- Differentially Private Model-Based Offline Reinforcement Learning [51.1231068185106]
DP-MORLは差分プライバシーを保証するアルゴリズムである。
環境のプライベートモデルは、まずオフラインデータから学習される。
次に、モデルベースのポリシー最適化を使用して、プライベートモデルからポリシーを導出します。
論文 参考訳(メタデータ) (2024-02-08T10:05:11Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - adaPARL: Adaptive Privacy-Aware Reinforcement Learning for
Sequential-Decision Making Human-in-the-Loop Systems [0.5414308305392761]
強化学習(Reinforcement Learning, RL)は, 各種アプリケーションにおけるルールベースアプローチと比較して, 数多くの利点を示す。
本稿では,プライバシを意識したRLの適応的アプローチであるadaPARLを提案する。
AdaPARLは、人間の振る舞いや好みに応じて、パーソナライズされたプライバシユーティリティトレードオフを提供する。
論文 参考訳(メタデータ) (2023-03-07T21:55:22Z) - Reinforcement Learning from Diverse Human Preferences [95.61153128294939]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - On the utility and protection of optimization with differential privacy
and classic regularization techniques [9.413131350284083]
本稿では,標準最適化手法に対するDP-SGDアルゴリズムの有効性について検討する。
我々は、差分プライバシーの欠陥と限界について議論し、ドロップアウトとl2-規則化のプライバシー保護特性がしばしば優れていることを実証した。
論文 参考訳(メタデータ) (2022-09-07T14:10:21Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Privacy-Preserving Reinforcement Learning Beyond Expectation [6.495883501989546]
自動運転車のような機械学習アルゴリズムを備えたサイバーおよびサイバー物理システムは、環境を人間と共有する。
システム(またはエージェント)の振る舞いを1人以上のユーザの好みに合わせることが重要である。
エージェントが未知の環境で行動を学ぶ必要がある場合を考える。
論文 参考訳(メタデータ) (2022-03-18T21:28:29Z) - Reinforcement Learning Beyond Expectation [11.428014000851535]
累積予測理論 (cumulative prospect theory, cpt) は、人間が利益と損失を異なる視点で見る傾向をモデル化することが実証的に示されているパラダイムである。
本稿では,自律エージェントが未知の環境で行動を学ぶ必要がある環境について考察する。
エージェントに人間のユーザーの行動を密接に模倣する能力を与えるために、我々はCPTベースのコストを最適化する。
論文 参考訳(メタデータ) (2021-03-29T20:35:25Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z) - Tempered Sigmoid Activations for Deep Learning with Differential Privacy [33.574715000662316]
活性化関数の選択は、プライバシー保護の深層学習の感度を束縛することの中心であることを示す。
我々は,MNIST,FashionMNIST,CIFAR10に対して,学習手順の基礎を変更することなく,新たな最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-07-28T13:19:45Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。