論文の概要: Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity
- arxiv url: http://arxiv.org/abs/2405.19697v1
- Date: Thu, 30 May 2024 05:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:06:52.645710
- Title: Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity
- Title(参考訳): 低次凸性をもたない過勾配発達による二段階強化学習
- Authors: Yan Yang, Bin Gao, Ya-xiang Yuan,
- Abstract要約: 2段階強化学習 (RL) は2段階間問題を特徴とする。
低レベルの凸性の本質的な過度勾配を特徴付ける。
モデルベースとモデルフリーの2段階強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.917399520581689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilevel reinforcement learning (RL), which features intertwined two-level problems, has attracted growing interest recently. The inherent non-convexity of the lower-level RL problem is, however, to be an impediment to developing bilevel optimization methods. By employing the fixed point equation associated with the regularized RL, we characterize the hyper-gradient via fully first-order information, thus circumventing the assumption of lower-level convexity. This, remarkably, distinguishes our development of hyper-gradient from the general AID-based bilevel frameworks since we take advantage of the specific structure of RL problems. Moreover, we propose both model-based and model-free bilevel reinforcement learning algorithms, facilitated by access to the fully first-order hyper-gradient. Both algorithms are provable to enjoy the convergence rate $\mathcal{O}(\epsilon^{-1})$. To the best of our knowledge, this is the first time that AID-based bilevel RL gets rid of additional assumptions on the lower-level problem. In addition, numerical experiments demonstrate that the hyper-gradient indeed serves as an integration of exploitation and exploration.
- Abstract(参考訳): 二段階強化学習(RL)は,近年関心が高まっている。
しかし、低レベルRL問題の本質的に非凸性は、双レベル最適化法の開発の障害となる。
正則化 RL に付随する固定点方程式を用いることで、全一階情報により過次を特徴付けることにより、下層の凸性の仮定を回避できる。
このことは、RL問題の特定の構造を活かすため、一般のAIDベースの双レベルフレームワークと過次性の開発を区別する。
さらに,モデルベースとモデルフリーの2段階強化学習アルゴリズムを提案する。
どちらのアルゴリズムも収束率$\mathcal{O}(\epsilon^{-1})$を楽しむことができる。
私たちの知る限りでは、AIDベースのバイレベルRLが低レベル問題に関する追加の仮定を排除したのはこれが初めてです。
さらに、数値実験により、超勾配が実際にエクスプロイトと探索の統合として機能していることが示されている。
関連論文リスト
- A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints [66.61399765513383]
We developed a BLOCC algorithm to tackle BiLevel Optimization problems with Coupled Constraints。
2つのよく知られた実世界のアプリケーションでその効果を実証する。
論文 参考訳(メタデータ) (2024-06-14T15:59:36Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - A Generalized Alternating Method for Bilevel Learning under the
Polyak-{\L}ojasiewicz Condition [63.66516306205932]
バイレベル最適化は、その新興機械学習分野への応用により、最近、関心を取り戻している。
最近の結果は、単純な反復に基づくイテレーションは、低レベルな目標の凸に起因する利害と一致することを示しています。
論文 参考訳(メタデータ) (2023-06-04T17:54:11Z) - Communication-Efficient Federated Bilevel Optimization with Local and
Global Lower Level Problems [118.00379425831566]
我々はFedBiOAccという通信効率の高いアルゴリズムを提案する。
我々は、FedBiOAcc-Localがこの種の問題に対して同じ速度で収束していることを証明する。
実験結果から,アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-02-13T21:28:53Z) - On Penalty-based Bilevel Gradient Descent Method [40.27047651949238]
我々はペナルティ法のレンズを通して二段階問題に取り組む。
ペナルティに基づく二段階勾配勾配法(PBGD)アルゴリズムを提案する。
実験では提案したPBGDアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-02-10T11:30:19Z) - Value-Function-based Sequential Minimization for Bi-level Optimization [52.39882976848064]
勾配に基づくBi-Level Optimization (BLO)法は、現代の学習課題に広く応用されている。
機能的制約のあるBLOや悲観的なBLOなど、難解なシナリオでBLOを解くことができる勾配ベースの方法はほとんどない。
上記の問題に対処するために,BVFSM(Bi-level Value-Function-based Sequential Minimization)を提案する。
論文 参考訳(メタデータ) (2021-10-11T03:13:39Z) - Inexact bilevel stochastic gradient methods for constrained and
unconstrained lower-level problems [0.0]
2段階の定式探索最適化は多くの機械学習の文脈で有効になっている。
2階微分を必要としない新しい低ランク二階勾配法が開発されている。
論文 参考訳(メタデータ) (2021-10-01T18:20:14Z) - A Generic Descent Aggregation Framework for Gradient-based Bi-level
Optimization [41.894281911990554]
両レベル学習タスクのための新しいBDA(Bi-level Descent Aggregation)フレームワークを開発した。
BDAは上層と下層の両方の階層的目的を集約する。
従来の勾配に基づくbiレベル法の収束結果を改善するための新しい証明法を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:58:12Z) - A Generic First-Order Algorithmic Framework for Bi-Level Programming
Beyond Lower-Level Singleton [49.23948907229656]
Bi-level Descent Aggregationは、汎用的な双方向最適化のためのフレキシブルでモジュール化されたアルゴリズムフレームワークである。
LLS条件なしでBDAの収束を証明する新しい手法を導出する。
我々の研究は、BDAが特定の一階計算モジュールの検証と互換性があることも示している。
論文 参考訳(メタデータ) (2020-06-07T05:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。