論文の概要: A universal policy wrapper with guarantees
- arxiv url: http://arxiv.org/abs/2505.12354v1
- Date: Sun, 18 May 2025 10:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.184637
- Title: A universal policy wrapper with guarantees
- Title(参考訳): 保証付きユニバーサルポリシーラッパー
- Authors: Anton Bolychev, Georgiy Malaniya, Grigory Yaremenko, Anastasia Krasnaya, Pavel Osinenko,
- Abstract要約: 強化学習エージェントのためのユニバーサルポリシーラッパーを導入する。
我々のラッパーは、高性能ベースポリシーとフォールバックポリシーを選択的に切り替える。
追加のシステム知識やオンライン制約付き最適化を必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a universal policy wrapper for reinforcement learning agents that ensures formal goal-reaching guarantees. In contrast to standard reinforcement learning algorithms that excel in performance but lack rigorous safety assurances, our wrapper selectively switches between a high-performing base policy -- derived from any existing RL method -- and a fallback policy with known convergence properties. Base policy's value function supervises this switching process, determining when the fallback policy should override the base policy to ensure the system remains on a stable path. The analysis proves that our wrapper inherits the fallback policy's goal-reaching guarantees while preserving or improving upon the performance of the base policy. Notably, it operates without needing additional system knowledge or online constrained optimization, making it readily deployable across diverse reinforcement learning architectures and tasks.
- Abstract(参考訳): 我々は、正式な目標達成保証を保証する強化学習エージェントのための普遍的なポリシーラッパーを導入する。
性能が優れているが厳格な安全保証が欠けている標準的な強化学習アルゴリズムとは対照的に、我々のラッパーは、既存のRL法から派生した高性能ベースポリシーと、既知の収束特性を持つフォールバックポリシーを選択的に切り替える。
ベースポリシーの値関数はこの切り替えプロセスを監督し、フォールバックポリシーがベースポリシーをオーバーライドし、システムが安定した経路に留まることを確実にするかどうかを決定する。
分析の結果,我々のラッパーは,基本方針の性能を保留又は改善しながら,フォールバック方針の目標達成保証を継承していることがわかった。
特に、追加のシステム知識やオンライン制約付き最適化を必要とせず、多様な強化学習アーキテクチャやタスクを簡単にデプロイできる。
関連論文リスト
- Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - A Provable Approach for End-to-End Safe Reinforcement Learning [17.17447653795906]
安全強化学習(RL)の長年の目標は、プロセス全体を通してポリシーの安全性を確保することである。
本稿では、オフライン安全なRLと安全なポリシー展開を統合するPLS(Provably Lifetime Safe RL)手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T00:48:20Z) - Multi-CALF: A Policy Combination Approach with Statistical Guarantees [0.0]
相対値改善に基づく強化学習ポリシーをインテリジェントに組み合わせたアルゴリズムであるMulti-CALFを導入する。
提案手法は、標準のRLポリシーと理論的に支持された代替ポリシーを統合し、正式な安定性保証を継承する。
論文 参考訳(メタデータ) (2025-05-18T10:30:24Z) - SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本稿では,モデルフリーのエピソード設定において,新しいタスク固有ポリシーの安全性特性に違反する確率を限定した理論的結果を示す。
また,タスク固有の性能と引き換えに安全保証を交換できるSPoRtを提案する。
論文 参考訳(メタデータ) (2025-04-08T19:09:07Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。