論文の概要: Performative Policy Gradient: Optimality in Performative Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.20576v1
- Date: Tue, 23 Dec 2025 18:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.965226
- Title: Performative Policy Gradient: Optimality in Performative Reinforcement Learning
- Title(参考訳): 適応的政策グラディエント:適応的強化学習における最適性
- Authors: Debabrota Basu, Udvas Das, Brahim Driss, Uddalak Mukherjee,
- Abstract要約: デプロイ後の機械学習アルゴリズムは、しばしば彼らが行動する環境に影響を与える。
我々はPerformative Policy Gradient Algorithm (PePG)を紹介する。
PePGは性能的に最適な政策、すなわち自分自身によって誘導される分布シフトの下で最適な政策に収束する。
- 参考スコア(独自算出の注目度): 13.777823115521665
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-deployment machine learning algorithms often influence the environments they act in, and thus shift the underlying dynamics that the standard reinforcement learning (RL) methods ignore. While designing optimal algorithms in this performative setting has recently been studied in supervised learning, the RL counterpart remains under-explored. In this paper, we prove the performative counterparts of the performance difference lemma and the policy gradient theorem in RL, and further introduce the Performative Policy Gradient algorithm (PePG). PePG is the first policy gradient algorithm designed to account for performativity in RL. Under softmax parametrisation, and also with and without entropy regularisation, we prove that PePG converges to performatively optimal policies, i.e. policies that remain optimal under the distribution shifts induced by themselves. Thus, PePG significantly extends the prior works in Performative RL that achieves performative stability but not optimality. Furthermore, our empirical analysis on standard performative RL environments validate that PePG outperforms standard policy gradient algorithms and the existing performative RL algorithms aiming for stability.
- Abstract(参考訳): デプロイ後の機械学習アルゴリズムは、しばしば行動する環境に影響を与えるため、標準強化学習(RL)法が無視する基礎となるダイナミクスをシフトする。
この性能設定における最適アルゴリズムの設計は、教師あり学習において最近研究されているが、RLは未探索のままである。
本稿では、RLにおける性能差分補題とポリシー勾配定理の性能的相似性を証明し、さらにPerformative Policy Gradient Algorithm (PePG)を導入する。
PePGは、RLにおける性能を考慮に入れた最初のポリシー勾配アルゴリズムである。
ソフトマックスパラメトリゼーションの下では、またエントロピー正則化を伴わずとも、 PePG が性能的に最適なポリシー、すなわち、自分自身によって誘導される分布シフトの下で最適であるポリシーに収束することが証明される。
したがって、PePGは性能安定性を達成できるが最適性はないPerformative RLの先行研究を著しく拡張する。
さらに, 標準性能RL環境に関する実証分析により, PePGが標準方針勾配アルゴリズムと既存性能RLアルゴリズムより優れていることを確認した。
関連論文リスト
- On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning [30.767979998925437]
汎用ユーティリティ(RLGU)による強化学習は、標準的な期待したリターンを超えた問題をキャプチャする統一フレームワークを提供する。
標準RL政策勾配法(PG法)の理論的解析の最近の進歩とRLGUにおける最近の取り組みは依然として限られている。
RLGUにおけるPG手法のグローバルな最適性保証を確立する。
論文 参考訳(メタデータ) (2024-10-05T10:24:07Z) - A Prospect-Theoretic Policy Gradient Framework for Behaviorally Nuanced Reinforcement Learning [4.841365627573421]
累積プロスペクト理論(CPT)は、人間に基づく意思決定のためのよりニュアンスなモデルを提供する。
CPTは、リスク、利益、損失に対する多様な態度と認識をキャプチャする、人間ベースの意思決定のためのよりニュアンスなモデルを提供する。
a) CPT目標に対する新しいポリシー勾配定理を導出し、(b) CPT-RL問題を解くためのモデルフリーポリシー勾配アルゴリズムを設計し、(d)シミュレーションによりその性能をテストする。
論文 参考訳(メタデータ) (2024-10-03T15:45:39Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。