論文の概要: Bi-Level Policy Optimization with Nyström Hypergradients
- arxiv url: http://arxiv.org/abs/2505.11714v1
- Date: Fri, 16 May 2025 21:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.799864
- Title: Bi-Level Policy Optimization with Nyström Hypergradients
- Title(参考訳): Nyströmハイパーグラディエントを用いた二段階政策最適化
- Authors: Arjun Prakash, Naicheng He, Denizalp Goktas, Amy Greenwald,
- Abstract要約: アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター
我々は,BLOのネスト構造を考慮に入れたネストを用いた,Nystr"om Hypergradients (BLPO) を用いたバイレベルポリシー最適化手法を提案する。
実験により, BLPO は PPO と同等かそれ以上に, 様々な離散的かつ連続的な制御タスクで動作することが実証された。
- 参考スコア(独自算出の注目度): 14.87444917213389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dependency of the actor on the critic in actor-critic (AC) reinforcement learning means that AC can be characterized as a bilevel optimization (BLO) problem, also called a Stackelberg game. This characterization motivates two modifications to vanilla AC algorithms. First, the critic's update should be nested to learn a best response to the actor's policy. Second, the actor should update according to a hypergradient that takes changes in the critic's behavior into account. Computing this hypergradient involves finding an inverse Hessian vector product, a process that can be numerically unstable. We thus propose a new algorithm, Bilevel Policy Optimization with Nystr\"om Hypergradients (BLPO), which uses nesting to account for the nested structure of BLO, and leverages the Nystr\"om method to compute the hypergradient. Theoretically, we prove BLPO converges to (a point that satisfies the necessary conditions for) a local strong Stackelberg equilibrium in polynomial time with high probability, assuming a linear parametrization of the critic's objective. Empirically, we demonstrate that BLPO performs on par with or better than PPO on a variety of discrete and continuous control tasks.
- Abstract(参考訳): アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター/アクター(AC)強化学習における批評家へのアクターの依存は、ACが二段階最適化(BLO)問題として特徴づけられることを意味する(スタックルバーグゲームとも呼ばれる)。
この特徴は、バニラACアルゴリズムに2つの修正を動機付けている。
まず、批評家の更新は、俳優のポリシーに対する最良の反応を学ぶためにネストされるべきである。
第二に、アクターは、批評家の行動に変化をもたらす過度な段階に従って更新する必要がある。
この過次性を計算するには、数値的に不安定な逆ヘッセンベクトル積を見つける必要がある。
そこで我々は,Nystr\"om Hypergradients (BLPO) を用いた新しいアルゴリズムを提案する。
理論的には、BLPO は(必要条件を満たす点)、批判者の目的の線形パラメトリゼーションを仮定して、多項式時間における局所強スタックルバーグ均衡に(高い確率で)収束することを証明している。
実験により, BLPO は PPO と同等かそれ以上に, 様々な離散的かつ連続的な制御タスクで動作することが実証された。
関連論文リスト
- Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Design from Policies: Conservative Test-Time Adaptation for Offline
Policy Optimization [30.17751989299339]
オフライントレーニングフェーズからオフラインRL(値推定とポリシ抽出)を分離し,非イテレーティブな双方向パラダイムを形成する。
この非イテレーティブなパラダイムは、テストにおいて外部レベルの最適化(政治抽出)を行いながら、トレーニングにおいて内部レベルの最適化(価値推定)を行うことを可能にする。
論文 参考訳(メタデータ) (2023-06-26T07:46:04Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。