論文の概要: Preserving the Privacy of Reward Functions in MDPs through Deception
- arxiv url: http://arxiv.org/abs/2407.09809v1
- Date: Sat, 13 Jul 2024 09:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:47:21.498723
- Title: Preserving the Privacy of Reward Functions in MDPs through Deception
- Title(参考訳): 偽装によるMDPにおけるリワード関数のプライバシ保護
- Authors: Shashank Reddy Chirra, Pradeep Varakantham, Praveen Paruchuri,
- Abstract要約: 多くの物理的およびサイバーセキュリティドメインにおいて、決定が監視可能である場合、シーケンシャルな意思決定エージェントの好み(または報酬)のプライバシを保存することが不可欠である。
本稿では,MDPにおける行動の連続を計画する際のプライバシ保護について論じる。
- 参考スコア(独自算出の注目度): 13.664014596337037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preserving the privacy of preferences (or rewards) of a sequential decision-making agent when decisions are observable is crucial in many physical and cybersecurity domains. For instance, in wildlife monitoring, agents must allocate patrolling resources without revealing animal locations to poachers. This paper addresses privacy preservation in planning over a sequence of actions in MDPs, where the reward function represents the preference structure to be protected. Observers can use Inverse RL (IRL) to learn these preferences, making this a challenging task. Current research on differential privacy in reward functions fails to ensure guarantee on the minimum expected reward and offers theoretical guarantees that are inadequate against IRL-based observers. To bridge this gap, we propose a novel approach rooted in the theory of deception. Deception includes two models: dissimulation (hiding the truth) and simulation (showing the wrong). Our first contribution theoretically demonstrates significant privacy leaks in existing dissimulation-based methods. Our second contribution is a novel RL-based planning algorithm that uses simulation to effectively address these privacy concerns while ensuring a guarantee on the expected reward. Experiments on multiple benchmark problems show that our approach outperforms previous methods in preserving reward function privacy.
- Abstract(参考訳): 多くの物理的およびサイバーセキュリティドメインにおいて、決定が監視可能である場合、シーケンシャルな意思決定エージェントの好み(または報酬)のプライバシを保存することが不可欠である。
例えば、野生生物のモニタリングでは、エージェントは密猟者に動物の位置を明らかにすることなくパトロール資源を割り当てなければならない。
本稿では,MDPにおける行動の連続を計画する際のプライバシ保護について論じる。
オブザーバはInverse RL(IRL)を使用してこれらの好みを学習できるため、これは難しい作業である。
報酬関数における微分プライバシに関する現在の研究は、最小限の報酬を保証することができず、IRLベースのオブザーバには不十分な理論的保証を提供する。
このギャップを埋めるために,詐欺理論に根ざした新しいアプローチを提案する。
偽装には、デシミュレーション(真実を隠す)とシミュレーション(間違ったものを描く)の2つのモデルが含まれる。
私たちの最初のコントリビューションは、既存のシミュレーションベースの手法における重要なプライバシー漏洩を理論的に実証する。
第2のコントリビューションは、RLベースの新しい計画アルゴリズムで、予測される報酬の保証を保ちながら、これらのプライバシー問題に効果的に対処するためにシミュレーションを使用する。
複数のベンチマーク問題に対する実験の結果,提案手法は報奨関数のプライバシ保護における従来の手法よりも優れていた。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Collaborative Inference over Wireless Channels with Feature Differential Privacy [57.68286389879283]
複数の無線エッジデバイス間の協調推論は、人工知能(AI)アプリケーションを大幅に強化する可能性がある。
抽出された特徴を抽出することは、プロセス中に機密性の高い個人情報が暴露されるため、重大なプライバシーリスクをもたらす。
本稿では,ネットワーク内の各エッジデバイスが抽出された機能のプライバシを保護し,それらを中央サーバに送信して推論を行う,新たなプライバシ保存協調推論機構を提案する。
論文 参考訳(メタデータ) (2024-10-25T18:11:02Z) - Chained-DP: Can We Recycle Privacy Budget? [18.19895364709435]
本稿では,ユーザが順次データアグリゲーションを実行し,プライバシ予算を再利用することのできる,新しいChained-DPフレームワークを提案する。
逐次ゲームの数学的性質を示し、そのナッシュ平衡を解き、証明可能な経済特性を持つインセンティブメカニズムを設計する。
提案手法の有効性を数値シミュレーションにより検証し,従来のLPP機構と比較して,プライバシ予算の大幅な削減と推定誤差の低減を図った。
論文 参考訳(メタデータ) (2023-09-12T08:07:59Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - A Randomized Approach for Tight Privacy Accounting [63.67296945525791]
推定検証リリース(EVR)と呼ばれる新しい差分プライバシーパラダイムを提案する。
EVRパラダイムは、まずメカニズムのプライバシパラメータを推定し、その保証を満たすかどうかを確認し、最後にクエリ出力を解放する。
我々の実証的な評価は、新たに提案されたEVRパラダイムが、プライバシ保護機械学習のユーティリティプライバシトレードオフを改善することを示している。
論文 参考訳(メタデータ) (2023-04-17T00:38:01Z) - Rethinking Disclosure Prevention with Pointwise Maximal Leakage [36.3895452861944]
本稿では,秘密の$X$の低エントロピー機能の価値を開示し,実用性を実現するユーティリティとプライバシの一般モデルを提案する。
我々は、大衆の意見に反して、有意義な推論によるプライバシー保証を提供することを証明している。
PMLベースのプライバシは互換性があることを示し、差分プライバシーのような既存の概念に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-03-14T10:47:40Z) - Privacy in Practice: Private COVID-19 Detection in X-Ray Images
(Extended Version) [3.750713193320627]
私たちは、差分プライバシー(DP)を満たす機械学習モデルを作成します。
我々は、ユーティリティとプライバシのトレードオフをより広範囲に評価し、より厳格なプライバシー予算について検討する。
以上の結果から,MIAの課題依存的実践的脅威によって,必要なプライバシーレベルが異なる可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-21T13:22:29Z) - Privacy-Preserving Distributed Expectation Maximization for Gaussian
Mixture Model using Subspace Perturbation [4.2698418800007865]
フェデレーション学習は、プライベートデータの送信を許可せず、中間更新のみを許可するため、プライバシー上の懸念によって動機付けられている。
我々は、各ステップの更新を安全に計算できる、完全に分散化されたプライバシ保存ソリューションを提案する。
数値検証により,提案手法は,精度とプライバシの両面において,既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-09-16T09:58:03Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。