論文の概要: LPPG-RL: Lexicographically Projected Policy Gradient Reinforcement Learning with Subproblem Exploration
- arxiv url: http://arxiv.org/abs/2511.08339v1
- Date: Wed, 12 Nov 2025 01:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.766971
- Title: LPPG-RL: Lexicographically Projected Policy Gradient Reinforcement Learning with Subproblem Exploration
- Title(参考訳): LPPG-RL:サブプロブレム探索による語彙予測型政策勾配強化学習
- Authors: Ruiyu Qiu, Rui Wang, Guanghui Yang, Xiang Li, Zhijiang Shao,
- Abstract要約: 語彙的多目的問題は現実世界の応用では一般的である。
従来の LMORL (Safe Multi-Objective RL) 法は優先順位付け順序付けを効率的に行うのが困難である。
これらの制約を克服するために,Lexicographic Projected Policy Gradient RL (LMORL)を提案する。
- 参考スコア(独自算出の注目度): 6.456410901431744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexicographic multi-objective problems, which consist of multiple conflicting subtasks with explicit priorities, are common in real-world applications. Despite the advantages of Reinforcement Learning (RL) in single tasks, extending conventional RL methods to prioritized multiple objectives remains challenging. In particular, traditional Safe RL and Multi-Objective RL (MORL) methods have difficulty enforcing priority orderings efficiently. Therefore, Lexicographic Multi-Objective RL (LMORL) methods have been developed to address these challenges. However, existing LMORL methods either rely on heuristic threshold tuning with prior knowledge or are restricted to discrete domains. To overcome these limitations, we propose Lexicographically Projected Policy Gradient RL (LPPG-RL), a novel LMORL framework which leverages sequential gradient projections to identify feasible policy update directions, thereby enabling LPPG-RL broadly compatible with all policy gradient algorithms in continuous spaces. LPPG-RL reformulates the projection step as an optimization problem, and utilizes Dykstra's projection rather than generic solvers to deliver great speedups, especially for small- to medium-scale instances. In addition, LPPG-RL introduces Subproblem Exploration (SE) to prevent gradient vanishing, accelerate convergence and enhance stability. We provide theoretical guarantees for convergence and establish a lower bound on policy improvement. Finally, through extensive experiments in a 2D navigation environment, we demonstrate the effectiveness of LPPG-RL, showing that it outperforms existing state-of-the-art continuous LMORL methods.
- Abstract(参考訳): 複数の競合するサブタスクと明示的な優先順位を持つレキシコグラフィーの多目的問題は、現実世界のアプリケーションでは一般的である。
単一タスクにおける強化学習(RL)の利点にもかかわらず、従来のRLメソッドを複数の目的に優先順位付けする拡張は依然として困難である。
特に、従来の Safe RL と Multi-Objective RL (MORL) の手法は、優先順位付けを効率的に行うのが困難である。
そのため,これらの課題に対処するため,Lexicographic Multi-Objective RL (LMORL) 法が開発されている。
しかし、既存のLMORL法は、事前知識によるヒューリスティックしきい値チューニングに依存しているか、離散領域に限定されている。
これらの制約を克服するため,Lexicographically Projected Policy Gradient RL (LPPG-RL) を提案する。
LPPG-RLは、プロジェクションステップを最適化問題として再構成し、ジェネリックソルバではなくDykstraのプロジェクションを使用して、特に小規模から中規模のインスタンスにおいて大きなスピードアップを実現する。
さらに、LPPG-RLは、勾配の消失を防止し、収束を加速し、安定性を高めるためにSubproblem Exploration (SE)を導入している。
我々は、収束の理論的保証を提供し、政策改善の低い境界を確立する。
最後に,2次元ナビゲーション環境における広範囲な実験により,LPPG-RLの有効性を実証し,従来のLMORL法よりも優れていることを示す。
関連論文リスト
- Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for
Last-Iterate Convergence in Constrained MDPs [31.663072540757643]
強化学習(Reinforcement Learning, RL)は, 実世界の課題に応用され, 成功を収めている。
Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を紹介する。
論文 参考訳(メタデータ) (2023-02-02T18:05:27Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。