論文の概要: Exchange Policy Optimization Algorithm for Semi-Infinite Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.04147v1
- Date: Thu, 06 Nov 2025 07:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.352115
- Title: Exchange Policy Optimization Algorithm for Semi-Infinite Safe Reinforcement Learning
- Title(参考訳): 半無限安全強化学習のための交換政策最適化アルゴリズム
- Authors: Jiaming Zhang, Yujie Yang, Haoning Wang, Liping Zhang, Shengbo Eben Li,
- Abstract要約: 本稿では,最適政策性能と決定論的境界安全性を実現するアルゴリズムフレームワークである交換ポリシ最適化(EPO)を提案する。
EPOは、有限制約集合で安全なRLサブプロブレムを反復的に解き、制約拡張と削除を通じて活性集合を適応的に調整することで機能する。
我々の理論的分析は、軽微な仮定の下で、EPOによって訓練された戦略が、所定の限界内に厳密に残されている大域的制約違反を伴う最適解に匹敵する性能を達成することを示した。
- 参考スコア(独自算出の注目度): 26.75757359001632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (safe RL) aims to respect safety requirements while optimizing long-term performance. In many practical applications, however, the problem involves an infinite number of constraints, known as semi-infinite safe RL (SI-safe RL). Such constraints typically appear when safety conditions must be enforced across an entire continuous parameter space, such as ensuring adequate resource distribution at every spatial location. In this paper, we propose exchange policy optimization (EPO), an algorithmic framework that achieves optimal policy performance and deterministic bounded safety. EPO works by iteratively solving safe RL subproblems with finite constraint sets and adaptively adjusting the active set through constraint expansion and deletion. At each iteration, constraints with violations exceeding the predefined tolerance are added to refine the policy, while those with zero Lagrange multipliers are removed after the policy update. This exchange rule prevents uncontrolled growth of the working set and supports effective policy training. Our theoretical analysis demonstrates that, under mild assumptions, strategies trained via EPO achieve performance comparable to optimal solutions with global constraint violations strictly remaining within a prescribed bound.
- Abstract(参考訳): 安全強化学習(セーフRL)は、長期的なパフォーマンスを最適化しながら、安全要件を尊重することを目的としている。
しかし、多くの実用的な応用において、問題は半無限安全なRL(SI-safe RL)と呼ばれる無限の制約を伴う。
このような制約は、すべての空間位置において適切な資源分布を確保するなど、安全条件が連続したパラメータ空間全体にわたって実施されなければならない場合に現れる。
本稿では,最適政策性能と決定論的境界安全性を実現するアルゴリズムフレームワークである交換ポリシ最適化(EPO)を提案する。
EPOは、有限制約集合で安全なRLサブプロブレムを反復的に解き、制約拡張と削除によって活性集合を適応的に調整することで機能する。
各イテレーションにおいて、ポリシーを洗練させるために、事前定義された寛容を超える違反の制約を追加し、ポリシー更新後にラグランジュ乗算数ゼロの制約を除去する。
この交換規則は、作業セットの制御不能な成長を防ぎ、効果的な政策訓練を支援する。
我々の理論的分析は、軽微な仮定の下で、EPOによって訓練された戦略が、所定の限界内に厳密に残されている大域的制約違反を伴う最適解に匹敵する性能を達成することを示した。
関連論文リスト
- Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。