論文の概要: Towards Optimal Differentially Private Regret Bounds in Linear MDPs
- arxiv url: http://arxiv.org/abs/2504.09339v2
- Date: Fri, 25 Apr 2025 18:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.485948
- Title: Towards Optimal Differentially Private Regret Bounds in Linear MDPs
- Title(参考訳): 線形MDPにおける最適微分プライベートレギュレット境界を目指して
- Authors: Sharan Sahu,
- Abstract要約: 我々は、LSVI-UCB++を民営化し、オフラインRLから分散認識解析に適応させることにより、新しい微分プライベートアルゴリズムを設計する。
我々のアルゴリズムは、$widetildeO(d sqrtH3 K + H15/4 d7/6 K1/2 / epsilon)$の後悔の限界を達成し、従来のプライベートメソッドよりも改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study regret minimization under privacy constraints in episodic inhomogeneous linear Markov Decision Processes (MDPs), motivated by the growing use of reinforcement learning (RL) in personalized decision-making systems that rely on sensitive user data. In this setting, both transition probabilities and reward functions are assumed to be linear in a feature mapping $\phi(s, a)$, and we aim to ensure privacy through joint differential privacy (JDP), a relaxation of differential privacy suited to online learning. Prior work has established suboptimal regret bounds by privatizing the LSVI-UCB algorithm, which achieves $\widetilde{O}(\sqrt{d^3 H^4 K})$ regret in the non-private setting. Building on recent advances that improve this to near minimax optimal regret $\widetilde{O}(d\sqrt{H^{3}K})$ via LSVI-UCB++ with Bernstein-style bonuses, we design a new differentially private algorithm by privatizing LSVI-UCB++ and adapting techniques for variance-aware analysis from offline RL. Our algorithm achieves a regret bound of $\widetilde{O}(d \sqrt{H^3 K} + H^{15/4} d^{7/6} K^{1/2} / \epsilon)$, improving over previous private methods. Empirical results show that our algorithm retains near-optimal utility compared to non-private baselines, indicating that privacy can be achieved with minimal performance degradation in this setting.
- Abstract(参考訳): 機密データに依存した個人化意思決定システムにおける強化学習(RL)の利用の増加を動機として,エピソジックな線形マルコフ決定過程(MDP)におけるプライバシー制約による後悔の最小化について検討した。
この設定では、遷移確率と報酬関数の両方が、$\phi(s, a)$で線形であると仮定され、オンライン学習に適した差分プライバシーの緩和であるJDPを通じてプライバシーを確保することを目的としている。
以前の研究は、LSVI-UCBアルゴリズムを民営化し、非民営環境での後悔を$\widetilde{O}(\sqrt{d^3 H^4 K})とすることで、最適以下の後悔境界を確立した。
LSVI-UCB++とBernsteinスタイルのボーナスを持つLSVI-UCB++を経由し、LSVI-UCB++の民営化と、オフラインRLからの分散認識分析技術の適用により、新たな微分プライベートアルゴリズムを設計する。
我々のアルゴリズムは、$\widetilde{O}(d \sqrt{H^3 K} + H^{15/4} d^{7/6} K^{1/2} / \epsilon)$の後悔境界を達成し、従来のプライベートメソッドよりも改善した。
実験結果から,本アルゴリズムは,非プライベートベースラインと比較してほぼ最適であることを示すとともに,この設定における性能劣化を最小限に抑えながら,プライバシを達成できることが示唆された。
関連論文リスト
- Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - FLIPHAT: Joint Differential Privacy for High Dimensional Sparse Linear Bandits [8.908421753758475]
高次元スパース線形帯域は、シーケンシャルな意思決定問題の効率的なモデルとして機能する。
データプライバシの懸念により、我々は、共同でプライベートな高次元の疎線形帯域について検討する。
FLIPHATは,プライバシパラメータの点で最適に後悔することを示す。
論文 参考訳(メタデータ) (2024-05-22T22:19:12Z) - Achieving Constant Regret in Linear Markov Decision Processes [57.34287648914407]
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔を高い確率で示し、不特定度 $zeta$ が $tildemathcalO(Delta / (sqrtdH2))$ 以下であることを示す。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Near-Optimal Differentially Private Reinforcement Learning [16.871660060209674]
差分プライバシー制約による強化学習におけるオンライン探索について検討する。
共同微分プライバシ(JDP)と局所微分プライバシ(LDP)の下では、非回帰学習が可能であることが確立されている。
我々は、情報理論上の非私的学習の下位境界に一致する$widetildeO(sqrtSAH2T+S2AH3/epsilon)$を後悔する$epsilon$-JDPアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-12-09T06:03:02Z) - Private Online Prediction from Experts: Separations and Faster Rates [74.52487417350221]
専門家によるオンライン予測は機械学習の基本的な問題であり、いくつかの研究がプライバシーの制約の下でこの問題を研究している。
本研究では,非適応的敵に対する最良な既存アルゴリズムの残差を克服する新たなアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2022-10-24T18:40:19Z) - Differentially Private Stochastic Gradient Descent with Low-Noise [49.981789906200035]
現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目的としており、プライバシー保護の目標と矛盾することが多い。
本稿では、プライバシを保ちながら優れたパフォーマンスを確保するために、プライバシを保存する機械学習アルゴリズムを開発することの実践的および理論的重要性について論じる。
論文 参考訳(メタデータ) (2022-09-09T08:54:13Z) - Improved Regret for Differentially Private Exploration in Linear MDP [31.567811502343552]
医療記録などのセンシティブなデータに依存する環境におけるシーケンシャルな意思決定におけるプライバシ保護探索について検討する。
我々は、エピソード数に対して$O(sqrtK)$を最適に依存した、改善された後悔率を持つプライベートアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-02T21:32:09Z) - Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for
Private Learning [74.73901662374921]
差分プライベートモデルは、モデルが多数のトレーニング可能なパラメータを含む場合、ユーティリティを劇的に劣化させる。
偏微分プライベート深層モデルの精度向上のためのアルゴリズムemphGradient Embedding Perturbation (GEP)を提案する。
論文 参考訳(メタデータ) (2021-02-25T04:29:58Z) - Output Perturbation for Differentially Private Convex Optimization with
Improved Population Loss Bounds, Runtimes and Applications to Private
Adversarial Training [12.386462516398469]
強力な過剰なリスク境界を提供する効率的で実装が容易な差分プライベート(DP)アルゴリズムを見つけることは、現代の機械学習において重要な問題である。
我々は、滑らかさと強い凸性の存在下で、最もよく知られた$(epsilon, 0)$-DP人口損失境界と最速ランタイムを提供する。
我々はこの理論を2つの学習フレームワーク、傾きERMと逆学習フレームワークに適用する。
論文 参考訳(メタデータ) (2021-02-09T08:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。