Fugu-MT 論文翻訳(概要): Offline Reinforcement Learning with Differential Privacy

論文の概要: Offline Reinforcement Learning with Differential Privacy

arxiv url: http://arxiv.org/abs/2206.00810v1
Date: Thu, 2 Jun 2022 00:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-03 12:55:17.342143
Title: Offline Reinforcement Learning with Differential Privacy
Title（参考訳）: ディファレンシャルプライバシを用いたオフライン強化学習
Authors: Dan Qiao, Yu-Xiang Wang
Abstract要約: オフラインの強化学習問題は、金融、法、医療のアプリケーションでデータ駆動の意思決定ポリシーを学ぶ必要性によって、しばしば動機付けられます。このようなリスクを確実に防止できる差分プライバシー保証付きオフラインRLアルゴリズムを設計する。
参考スコア（独自算出の注目度）: 16.871660060209674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The offline reinforcement learning (RL) problem is often motivated by the need to learn data-driven decision policies in financial, legal and healthcare applications. However, the learned policy could retain sensitive information of individuals in the training data (e.g., treatment and outcome of patients), thus susceptible to various privacy risks. We design offline RL algorithms with differential privacy guarantees which provably prevent such risks. These algorithms also enjoy strong instance-dependent learning bounds under both tabular and linear Markov decision process (MDP) settings. Our theory and simulation suggest that the privacy guarantee comes at (almost) no drop in utility comparing to the non-private counterpart for a medium-size dataset.
Abstract（参考訳）: オフライン強化学習(RL)問題は、金融、法、医療アプリケーションでデータ駆動型意思決定ポリシーを学ぶ必要性によってしばしば動機づけられる。しかし、学習方針は、トレーニングデータ(例えば、患者の治療と結果)における個人の機密情報を保持できるため、様々なプライバシーリスクを負う可能性がある。このようなリスクを確実に防止できる差分プライバシー保証付きオフラインRLアルゴリズムを設計する。これらのアルゴリズムはまた、表型および線形マルコフ決定プロセス(MDP)設定下での強いインスタンス依存学習境界も享受する。我々の理論とシミュレーションは、中規模のデータセットの非プライベートデータと比較すると、プライバシー保証は(ほとんど)ユーティリティーが低下しないことを示唆している。

関連論文リスト

Differential Privacy in Machine Learning: From Symbolic AI to LLMs [49.1574468325115]
差別化プライバシは、プライバシーリスクを軽減するための正式なフレームワークを提供する。単一のデータポイントの包含や除外がアルゴリズムの出力を著しく変更しないことを保証する。
論文参考訳（メタデータ） (2025-06-13T11:30:35Z)
Can Differentially Private Fine-tuning LLMs Protect Against Privacy Attacks? [8.189149471520542]
細調整された大規模言語モデル(LLM)は、特定のタスクに適応するための重要な戦略となっている。差分プライバシー(DP)はそのような漏洩に対して強力な理論的保証を提供するが、LLMにおける経験的プライバシーの有効性は未だ不明である。本稿では,DPが微調整方法やプライバシー予算に与える影響を体系的に検討する。
論文参考訳（メタデータ） (2025-04-28T05:34:53Z)
Differentially Private Policy Gradient [48.748194765816955]
本研究では,プライバシノイズと信頼領域サイズとの間の適切なトレードオフを見出すことができ,性能的にプライベートなポリシー勾配アルゴリズムが得られることを示す。この結果と課題の複雑さは,オンラインRLにおける既存のDPアルゴリズムよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-01-31T12:11:13Z)
Preserving Expert-Level Privacy in Offline Reinforcement Learning [35.486119057117996]
本稿では,既存のオフラインRLアルゴリズムと互換性のある,コンセンサスに基づく専門家レベルの個別オフラインRLトレーニング手法を提案する。我々は、強い経験的性能を維持しながら、厳密な差分プライバシー保証を証明している。
論文参考訳（メタデータ） (2024-11-18T21:26:53Z)
Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文参考訳（メタデータ） (2024-10-22T15:22:53Z)
Differentially Private Deep Model-Based Reinforcement Learning [47.651861502104715]
形式的な差分プライバシー保証を備えたモデルベースRLアルゴリズムであるPriMORLを紹介する。 PriMORLはオフラインデータから環境の軌道レベルのDPモデルのアンサンブルを学習する。
論文参考訳（メタデータ） (2024-02-08T10:05:11Z)
A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文参考訳（メタデータ） (2023-09-27T14:38:16Z)
Locally Differentially Private Distributed Online Learning with Guaranteed Optimality [1.800614371653704]
本稿では,分散オンライン学習における差分プライバシーと学習精度を両立させる手法を提案する。予想される即時後悔の減少を確実にする一方で、このアプローチは有限累積プライバシー予算を同時に確保することができる。私たちの知る限りでは、このアルゴリズムは厳密な局所的な差分プライバシーと学習精度の両方を確実にする最初のアルゴリズムです。
論文参考訳（メタデータ） (2023-06-25T02:05:34Z)
Differentially Private Reinforcement Learning with Linear Function Approximation [3.42658286826597]
差分プライバシー(DP)制約下における有限水平マルコフ決定過程(MDP)における後悔の最小化について検討する。本研究の結果は, 線形混合MDPにおける正則化条件の変更による学習の一般的な手順によって得られた。
論文参考訳（メタデータ） (2022-01-18T15:25:24Z)
Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。 FLと関連する技術は、しばしばプライバシー保護と表現される。この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文参考訳（メタデータ） (2021-12-21T08:44:05Z)
On Deep Learning with Label Differential Privacy [54.45348348861426]
ラベルは機密性があり、保護されるべきであるとするマルチクラス分類について検討する。本稿では,ラベル差分プライバシを用いたディープニューラルネットワークのトレーニングアルゴリズムを提案し,いくつかのデータセットで評価を行う。
論文参考訳（メタデータ） (2021-02-11T15:09:06Z)
Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2020-09-18T20:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。