論文の概要: On the Sample Complexity of Differentially Private Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.21060v1
- Date: Fri, 24 Oct 2025 00:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.34447
- Title: On the Sample Complexity of Differentially Private Policy Optimization
- Title(参考訳): 差分的私的政策最適化のサンプル複雑性について
- Authors: Yi He, Xingyu Zhou,
- Abstract要約: 政策最適化(PO)は現代強化学習(RL)の基盤であり、ロボット工学、医療、大規模言語モデルトレーニングにまたがる様々な応用がある。
本稿では,差分的私的政策最適化に関する理論的研究を開始し,その複雑さを明示する。
まず、POに適合する微分プライバシ(DP)の適切な定義を定式化し、オンライン学習のダイナミクスから生じる固有の課題に対処する。
次に,政策勾配(PG)や自然政策勾配(NPG)など,広く使用されているPOアルゴリズムのサンプル複雑性をDP制約や各種設定の下で,統一されたフレームワークを用いて体系的に解析する。
- 参考スコア(独自算出の注目度): 11.50986905833618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy optimization (PO) is a cornerstone of modern reinforcement learning (RL), with diverse applications spanning robotics, healthcare, and large language model training. The increasing deployment of PO in sensitive domains, however, raises significant privacy concerns. In this paper, we initiate a theoretical study of differentially private policy optimization, focusing explicitly on its sample complexity. We first formalize an appropriate definition of differential privacy (DP) tailored to PO, addressing the inherent challenges arising from on-policy learning dynamics and the subtlety involved in defining the unit of privacy. We then systematically analyze the sample complexity of widely-used PO algorithms, including policy gradient (PG), natural policy gradient (NPG) and more, under DP constraints and various settings, via a unified framework. Our theoretical results demonstrate that privacy costs can often manifest as lower-order terms in the sample complexity, while also highlighting subtle yet important observations in private PO settings. These offer valuable practical insights for privacy-preserving PO algorithms.
- Abstract(参考訳): 政策最適化(PO)は現代強化学習(RL)の基盤であり、ロボット工学、医療、大規模言語モデルトレーニングにまたがる様々な応用がある。
しかし、センシティブなドメインへのPOのデプロイの増加は、重要なプライバシー上の懸念を引き起こす。
本稿では,差分的私的政策最適化に関する理論的研究を開始し,その複雑さを明示する。
まず、POに適合する微分プライバシ(DP)の定義を定式化し、政治学習の力学から生じる固有の課題と、プライバシの単位を定義する上での微妙さに対処する。
次に,政策勾配 (PG) や自然政策勾配 (NPG) など,広く使用されているPOアルゴリズムのサンプル複雑性をDP制約や各種設定の下で,統一されたフレームワークを用いて体系的に解析する。
我々の理論的結果は、プライバシコストがサンプルの複雑さにおいて低次の用語として表されることがしばしばあり、同時にプライベートPO設定において微妙に重要な観察が強調されることを示している。
これらは、プライバシを保存するPOアルゴリズムに価値のある実用的な洞察を提供する。
関連論文リスト
- Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data [3.6714630660726586]
オフライン強化学習(RL)は,事前収集したデータを活用することで,期待される全報酬を最大化するために,動的環境における最適ポリシーを見つけることを目的としている。
従来の手法では、単一のエピソードや均質なバッチエピソードから事前に収集されたデータを持つすべての個人に対して最適なポリシーを学ぶことに重点を置いている。
異種時間定常マルコフ決定プロセスのための個別化オフラインポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T15:44:10Z) - Differentially Private Policy Gradient [48.748194765816955]
本研究では,プライバシノイズと信頼領域サイズとの間の適切なトレードオフを見出すことができ,性能的にプライベートなポリシー勾配アルゴリズムが得られることを示す。
この結果と課題の複雑さは,オンラインRLにおける既存のDPアルゴリズムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-01-31T12:11:13Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。