論文の概要: Towards Differentially Private Reinforcement Learning with General Function Approximation
- arxiv url: http://arxiv.org/abs/2605.07049v1
- Date: Thu, 07 May 2026 23:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.681192
- Title: Towards Differentially Private Reinforcement Learning with General Function Approximation
- Title(参考訳): 一般関数近似を用いた個人強化学習に向けて
- Authors: Yi He, Xingyu Zhou,
- Abstract要約: 一般関数近似を用いた個人用オンライン強化学習の理論的保証を初めて提示する。
提案手法は, バッチ化されたポリシー更新スキームと指数的メカニズムを組み合わせ, 新たな後悔分析と組み合わせたものである。
- 参考スコア(独自算出の注目度): 11.50986905833618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first theoretical guarantees for differentially private online reinforcement learning (RL) with general function approximation, extending beyond prior work restricted to tabular and linear settings. Our approach combines a batched policy update scheme with the exponential mechanism, together with a novel regret analysis. We show that, even under general function approximation, the regret in the model-free setting under differential privacy matches the state of the art for the linear case, scaling as $\widetilde{O}(K^{3/5})$, where $K$ denotes the number of episodes. As an important by-product, we also establish the first regret bound for online RL with batch update that depends on the standard complexity measure of coverability, complementing existing results based on a newly introduced Eluder-Condition class. In addition, we uncover fundamental gaps in recent results for private RL with linear function approximation, thereby clarifying its landscape.
- Abstract(参考訳): 一般関数近似を用いた差分プライベートオンライン強化学習(RL)の理論的保証は,表や線形設定に制限された先行作業を超えて行われる。
提案手法は, バッチ化されたポリシー更新スキームと指数的メカニズムを組み合わせ, 新たな後悔分析と組み合わせたものである。
一般関数近似においても、差分プライバシー下でのモデルフリー設定の後悔は線形の場合の最先端と一致し、$\widetilde{O}(K^{3/5})$とスケールする。
重要な副産物として、新たに導入されたEluder-Conditionクラスに基づいた既存の結果を補完し、カバー可能性の標準的な複雑さ尺度に依存するバッチ更新によるオンラインRLに対する最初の後悔のバウンダリを確立する。
さらに,線形関数近似を用いたプライベートRLの最近の結果の基本的なギャップを明らかにし,その景観を明らかにする。
関連論文リスト
- Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - Prior-dependent analysis of posterior sampling reinforcement learning with function approximation [19.505117288012148]
この研究は、線形混合MDPをモデルとした関数近似を用いた強化学習(RL)におけるランダム化探索を推し進める。
機能近似を用いたRLに対する最初の事前依存型ベイズ後悔法を確立し, 後方サンプリング強化学習(PSRL)のためのベイズ後悔解析を洗練させる。
上限は$mathcalO(dsqrtH3 T log T)$で、$d$は遷移カーネルの次元を表し、$H$は計画地平線、$T$は相互作用の総数を表す。
論文 参考訳(メタデータ) (2024-03-17T11:23:51Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Offline Reinforcement Learning via Linear-Programming with Error-Bound Induced Constraints [26.008426384903764]
オフライン強化学習(RL)は、事前に収集されたデータセットを使用して、マルコフ決定プロセス(MDP)の最適ポリシーを見つけることを目的としている。
本研究では,オフラインRLにおけるマルコフ決定過程の線形プログラミング (LP) の再検討を行う。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。