論文の概要: Preserving Expert-Level Privacy in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.13598v1
- Date: Mon, 18 Nov 2024 21:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:40.740507
- Title: Preserving Expert-Level Privacy in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるエキスパートレベルプライバシ保護
- Authors: Navodita Sharma, Vishnu Vinod, Abhradeep Thakurta, Alekh Agarwal, Borja Balle, Christoph Dann, Aravindan Raghuveer,
- Abstract要約: 本稿では,既存のオフラインRLアルゴリズムと互換性のある,コンセンサスに基づく専門家レベルの個別オフラインRLトレーニング手法を提案する。
我々は、強い経験的性能を維持しながら、厳密な差分プライバシー保証を証明している。
- 参考スコア(独自算出の注目度): 35.486119057117996
- License:
- Abstract: The offline reinforcement learning (RL) problem aims to learn an optimal policy from historical data collected by one or more behavioural policies (experts) by interacting with an environment. However, the individual experts may be privacy-sensitive in that the learnt policy may retain information about their precise choices. In some domains like personalized retrieval, advertising and healthcare, the expert choices are considered sensitive data. To provably protect the privacy of such experts, we propose a novel consensus-based expert-level differentially private offline RL training approach compatible with any existing offline RL algorithm. We prove rigorous differential privacy guarantees, while maintaining strong empirical performance. Unlike existing work in differentially private RL, we supplement the theory with proof-of-concept experiments on classic RL environments featuring large continuous state spaces, demonstrating substantial improvements over a natural baseline across multiple tasks.
- Abstract(参考訳): オフライン強化学習(RL)問題は、環境と対話することで、1つ以上の行動政策(専門家)によって収集された履歴データから最適なポリシーを学習することを目的としている。
しかし、個々の専門家は、学習ポリシーが正確な選択に関する情報を保持することにプライバシーに敏感であるかもしれない。
パーソナライズされた検索、広告、医療といった領域では、専門家の選択は機密データと見なされる。
このような専門家のプライバシを確実に保護するために,既存のオフラインRLアルゴリズムと互換性のある,新しいコンセンサスベースの個別オフラインRLトレーニング手法を提案する。
我々は、強い経験的性能を維持しながら、厳密な差分プライバシー保証を証明している。
微分プライベートなRLにおける既存の研究とは異なり、我々は、大きな連続状態空間を含む古典的なRL環境における概念実証実験で理論を補足し、複数のタスクにわたる自然なベースラインよりも大幅に改善されたことを示す。
関連論文リスト
- Centering Policy and Practice: Research Gaps around Usable Differential Privacy [12.340264479496375]
我々は、差分プライバシーは理論上はクリーンな定式化であるが、実際は重大な課題を提起していると論じている。
差分プライバシーの約束と現実世界のユーザビリティのギャップを埋めるために、研究者と実践者は協力しなければなりません。
論文 参考訳(メタデータ) (2024-06-17T21:32:30Z) - Differentially Private Deep Model-Based Reinforcement Learning [47.651861502104715]
形式的な差分プライバシー保証を備えたモデルベースRLアルゴリズムであるPriMORLを紹介する。
PriMORLはオフラインデータから環境の軌道レベルのDPモデルのアンサンブルを学習する。
論文 参考訳(メタデータ) (2024-02-08T10:05:11Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Offline Reinforcement Learning with Differential Privacy [16.871660060209674]
オフラインの強化学習問題は、金融、法、医療のアプリケーションでデータ駆動の意思決定ポリシーを学ぶ必要性によって、しばしば動機付けられます。
このようなリスクを確実に防止できる差分プライバシー保証付きオフラインRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-06-02T00:45:04Z) - Data augmentation for efficient learning from parametric experts [88.33380893179697]
我々は、学生の政策の行動を伝えるために、専門家のオンラインまたはオフラインのクエリを使用する、ポリシーのクローン設定と呼ばれるものに焦点を当てる。
提案手法は,APC(Adgressed Policy Cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導する。
我々は,高次自由度制御問題に対して,専門家から学生政策への行動の高度にデータ効率のよい移行を実現する。
論文 参考訳(メタデータ) (2022-05-23T16:37:16Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - How Private Is Your RL Policy? An Inverse RL Based Analysis Framework [5.987377024199901]
自動運転やレコメンデーションシステムといったドメインでは、ポリシーがプライベートな報酬の一部を記憶している場合、最適なRLポリシーがプライバシー侵害を引き起こす可能性がある。
本稿では、値反復、ディープQネットワーク、Vanilla Proximal Policy Optimizationなどの様々なRLアルゴリズムから導かれる、既存の微分プライベートなRLポリシーの集合について検討する。
本稿では,プライバシ・アウェア・インバースRL(PRIL)分析フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T12:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。