論文の概要: A Regularized Actor-Critic Algorithm for Bi-Level Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.16399v2
- Date: Mon, 26 Jan 2026 05:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 17:22:45.357177
- Title: A Regularized Actor-Critic Algorithm for Bi-Level Reinforcement Learning
- Title(参考訳): 双方向強化学習のための正規化アクタークリティカルアルゴリズム
- Authors: Sihan Zeng, Sujay Bhatt, Sumitra Ganesh, Alec Koppel,
- Abstract要約: 我々は,上層目標が滑らかな関数であり,下層問題はマルコフ決定過程(MDP)におけるポリシー最適化である構造的二層最適化問題について検討する。
既存の2段階最適化法とRLは、しばしば2階情報を必要とし、下位レベルに強い正規化を課すか、ネストループ手順でサンプルを非効率に利用する。
本稿では, ペナルティに基づくリフレクションにより, 両レベル目標を最適化する単一ループ一階アクター批判アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 24.969317765059174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a structured bi-level optimization problem where the upper-level objective is a smooth function and the lower-level problem is policy optimization in a Markov decision process (MDP). The upper-level decision variable parameterizes the reward of the lower-level MDP, and the upper-level objective depends on the optimal induced policy. Existing methods for bi-level optimization and RL often require second-order information, impose strong regularization at the lower level, or inefficiently use samples through nested-loop procedures. In this work, we propose a single-loop, first-order actor-critic algorithm that optimizes the bi-level objective via a penalty-based reformulation. We introduce into the lower-level RL objective an attenuating entropy regularization, which enables asymptotically unbiased upper-level hyper-gradient estimation without solving the unregularized RL problem exactly. We establish the finite-time and finite-sample convergence of the proposed algorithm to a stationary point of the original, unregularized bi-level optimization problem through a novel lower-level residual analysis under a special type of Polyak-Lojasiewicz condition. We validate the performance of our method through experiments on a GridWorld goal position problem and on happy tweet generation through reinforcement learning from human feedback (RLHF).
- Abstract(参考訳): 本稿では,上層目的が滑らかな関数であり,下層課題がマルコフ決定過程(MDP)におけるポリシー最適化である構造化二層最適化問題について検討する。
上層決定変数は、下層MDPの報酬をパラメータ化し、上層目的は、最適誘導ポリシーに依存する。
既存の2段階最適化法とRLは、しばしば2階情報を必要とし、下位レベルに強い正規化を課すか、ネストループ手順でサンプルを非効率に利用する。
本研究では, ペナルティに基づくリフォームにより, 双方向の目的を最適化する単一ループ一階アクター批判アルゴリズムを提案する。
本稿では,低レベルRL目標の減衰エントロピー正則化を導入し,不規則化RL問題を正確に解くことなく,漸近的に非偏りな上層高次推定を可能にする。
提案アルゴリズムの有限時間および有限サンプル収束を,ポリアック・ロジャシエヴィチ条件の下での新たな低レベル残差解析により,元の非正規化双レベル最適化問題の定常点に確立する。
我々は,GridWorldの目標位置問題と,人間からのフィードバック(RLHF)による強化学習による幸福なツイート生成に関する実験により,本手法の有効性を検証する。
関連論文リスト
- Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。
これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文 参考訳(メタデータ) (2025-11-18T17:51:17Z) - Provably Faster Algorithms for Bilevel Optimization via Without-Replacement Sampling [96.47086913559289]
勾配に基づくアルゴリズムはバイレベル最適化に広く用いられている。
本研究では,より高速な収束率を実現する非置換サンプリングに基づくアルゴリズムを提案する。
合成および実世界の両方のアプリケーションに対してアルゴリズムを検証する。
論文 参考訳(メタデータ) (2024-11-07T17:05:31Z) - Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.325297567945828]
本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。
提案手法は,既存の最先端技術に匹敵する,あるいは適合する新しいオンラインサンプルベース手法に特化していることを示す。
論文 参考訳(メタデータ) (2024-05-15T19:03:08Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Optimal Algorithms for Stochastic Bilevel Optimization under Relaxed
Smoothness Conditions [9.518010235273785]
両レベル最適化のための完全リリップループ・ヘシアン・インバージョンフリーなアルゴリズム・フレームワークを提案する。
我々は、我々のアプローチを少し修正することで、より汎用的な多目的ロバストな双レベル最適化問題に対処できることを示した。
論文 参考訳(メタデータ) (2023-06-21T07:32:29Z) - A Generalized Alternating Method for Bilevel Learning under the
Polyak-{\L}ojasiewicz Condition [63.66516306205932]
バイレベル最適化は、その新興機械学習分野への応用により、最近、関心を取り戻している。
最近の結果は、単純な反復に基づくイテレーションは、低レベルな目標の凸に起因する利害と一致することを示しています。
論文 参考訳(メタデータ) (2023-06-04T17:54:11Z) - On Penalty-based Bilevel Gradient Descent Method [35.83102074785861]
バイレベル最適化は、新興機械学習や信号処理問題における幅広い応用を享受している。
最近の二レベルアルゴリズムの進歩は、暗黙の勾配法を通した双レベル最適化問題に主眼を置いている。
本研究では,ペナルティ手法のレンズを用いて,二段階問題に挑戦する。
論文 参考訳(メタデータ) (2023-02-10T11:30:19Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。