論文の概要: Sample Complexity Analysis for Constrained Bilevel Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.00282v1
- Date: Fri, 30 Jan 2026 20:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.092688
- Title: Sample Complexity Analysis for Constrained Bilevel Reinforcement Learning
- Title(参考訳): 制約付き二段階強化学習のためのサンプル複雑度解析
- Authors: Naman Saxena, Vaneet Aggarwal,
- Abstract要約: 制約付き2レベルRLアルゴリズムのサンプル複雑性を解析し、制約なし設定の進捗状況に基づいて構築する。
我々は、一般パラメータ化ポリシーに基づくRLアルゴリズムを非滑らかな目的関数で解析する最初の人である。
- 参考スコア(独自算出の注目度): 47.66330599017582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several important problem settings within the literature of reinforcement learning (RL), such as meta-learning, hierarchical learning, and RL from human feedback (RL-HF), can be modelled as bilevel RL problems. A lot has been achieved in these domains empirically; however, the theoretical analysis of bilevel RL algorithms hasn't received a lot of attention. In this work, we analyse the sample complexity of a constrained bilevel RL algorithm, building on the progress in the unconstrained setting. We obtain an iteration complexity of $O(ε^{-2})$ and sample complexity of $\tilde{O}(ε^{-4})$ for our proposed algorithm, Constrained Bilevel Subgradient Optimization (CBSO). We use a penalty-based objective function to avoid the issue of primal-dual gap and hyper-gradient in the context of a constrained bilevel problem setting. The penalty-based formulation to handle constraints requires analysis of non-smooth optimization. We are the first ones to analyse the generally parameterized policy gradient-based RL algorithm with a non-smooth objective function using the Moreau envelope.
- Abstract(参考訳): 自己フィードバック(RL-HF)からのメタラーニング、階層学習、RLなど、強化学習(RL)の文献におけるいくつかの重要な問題設定を、双方向のRL問題としてモデル化することができる。
これらの領域では実証的に多くのことが達成されているが、バイレベルRLアルゴリズムの理論解析はあまり注目されていない。
本研究では,制約付き2レベルRLアルゴリズムのサンプル複雑性を解析し,制約なし設定の進捗状況に基づいて構築する。
我々は,提案アルゴリズムに対して,$O(ε^{-2})$の反復複雑性と$\tilde{O}(ε^{-4})$のサンプル複雑性を求める。
ペナルティに基づく目的関数を用いて、制約付き二段階問題設定の文脈において、原始二重ギャップの問題と過次性を回避する。
制約に対処するペナルティベースの定式化は、非滑らかな最適化の分析を必要とする。
我々は、一般にパラメータ化されたポリシー勾配に基づくRLアルゴリズムをモローエンベロープを用いて非滑らかな目的関数で解析する最初の者である。
関連論文リスト
- A Regularized Actor-Critic Algorithm for Bi-Level Reinforcement Learning [24.969317765059174]
我々は,上層目標が滑らかな関数であり,下層問題はマルコフ決定過程(MDP)におけるポリシー最適化である構造的二層最適化問題について検討する。
既存の2段階最適化法とRLは、しばしば2階情報を必要とし、下位レベルに強い正規化を課すか、ネストループ手順でサンプルを非効率に利用する。
本稿では, ペナルティに基づくリフレクションにより, 両レベル目標を最適化する単一ループ一階アクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-23T02:12:24Z) - On The Sample Complexity Bounds In Bilevel Reinforcement Learning [49.19950489963245]
二段階強化学習(BRL)は、生成モデルを調整するための強力なフレームワークとして登場した。
連続状態-作用複雑性において$mathcalO(epsilon)$の最初のサンプルを示す。
我々の分析は、既存の$mathcalO(epsilon)$のバウンダリで、複雑さを改善します。
論文 参考訳(メタデータ) (2025-03-22T04:22:04Z) - On The Global Convergence Of Online RLHF With Neural Parametrization [36.239015146313136]
Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値を結びつけることを目的としている。
RLHFは、教師付き微調整、報酬学習、政策学習を含む3段階のプロセスである。
本稿では、パラメータ化設定におけるAIアライメントのための2段階の定式化を提案し、この問題を解決するための一階法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:13:35Z) - Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity [4.917399520581689]
2段階強化学習 (RL) は2段階間問題を特徴とする。
非レベル凸情報は、双レベル最適化手法を開発する上での障害である。
ハイパーグラディエント(Hyper-gradient)は、エクスプロイトと探索の統合として機能する。
論文 参考訳(メタデータ) (2024-05-30T05:24:20Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation [67.66904892192794]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - On the Global Convergence of Fitted Q-Iteration with Two-layer Neural
Network Parametrization [33.12181620473604]
本稿では,2層型ReLUニューラルネットワークを用いたQ-Iterationについて検討し,アルゴリズムの複雑さの保証を求める。
このアプローチは,オーダー最適化である $tildemathcalO (1/epsilon2)$ のサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2022-11-14T19:00:24Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。