論文の概要: Sample Complexity Analysis for Constrained Bilevel Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.00282v1
- Date: Fri, 30 Jan 2026 20:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.092688
- Title: Sample Complexity Analysis for Constrained Bilevel Reinforcement Learning
- Title(参考訳): 制約付き二段階強化学習のためのサンプル複雑度解析
- Authors: Naman Saxena, Vaneet Aggarwal,
- Abstract要約: 制約付き2レベルRLアルゴリズムのサンプル複雑性を解析し、制約なし設定の進捗状況に基づいて構築する。
我々は、一般パラメータ化ポリシーに基づくRLアルゴリズムを非滑らかな目的関数で解析する最初の人である。
- 参考スコア(独自算出の注目度): 47.66330599017582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several important problem settings within the literature of reinforcement learning (RL), such as meta-learning, hierarchical learning, and RL from human feedback (RL-HF), can be modelled as bilevel RL problems. A lot has been achieved in these domains empirically; however, the theoretical analysis of bilevel RL algorithms hasn't received a lot of attention. In this work, we analyse the sample complexity of a constrained bilevel RL algorithm, building on the progress in the unconstrained setting. We obtain an iteration complexity of $O(ε^{-2})$ and sample complexity of $\tilde{O}(ε^{-4})$ for our proposed algorithm, Constrained Bilevel Subgradient Optimization (CBSO). We use a penalty-based objective function to avoid the issue of primal-dual gap and hyper-gradient in the context of a constrained bilevel problem setting. The penalty-based formulation to handle constraints requires analysis of non-smooth optimization. We are the first ones to analyse the generally parameterized policy gradient-based RL algorithm with a non-smooth objective function using the Moreau envelope.
- Abstract(参考訳): 自己フィードバック(RL-HF)からのメタラーニング、階層学習、RLなど、強化学習(RL)の文献におけるいくつかの重要な問題設定を、双方向のRL問題としてモデル化することができる。
これらの領域では実証的に多くのことが達成されているが、バイレベルRLアルゴリズムの理論解析はあまり注目されていない。
本研究では,制約付き2レベルRLアルゴリズムのサンプル複雑性を解析し,制約なし設定の進捗状況に基づいて構築する。
我々は,提案アルゴリズムに対して,$O(ε^{-2})$の反復複雑性と$\tilde{O}(ε^{-4})$のサンプル複雑性を求める。
ペナルティに基づく目的関数を用いて、制約付き二段階問題設定の文脈において、原始二重ギャップの問題と過次性を回避する。
制約に対処するペナルティベースの定式化は、非滑らかな最適化の分析を必要とする。
我々は、一般にパラメータ化されたポリシー勾配に基づくRLアルゴリズムをモローエンベロープを用いて非滑らかな目的関数で解析する最初の者である。
関連論文リスト
- On The Sample Complexity Bounds In Bilevel Reinforcement Learning [49.19950489963245]
二段階強化学習(BRL)は、生成モデルを調整するための強力なフレームワークとして登場した。
連続状態-作用複雑性において$mathcalO(epsilon)$の最初のサンプルを示す。
我々の分析は、既存の$mathcalO(epsilon)$のバウンダリで、複雑さを改善します。
論文 参考訳(メタデータ) (2025-03-22T04:22:04Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation [67.66904892192794]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。