論文の概要: A universal policy wrapper with guarantees
- arxiv url: http://arxiv.org/abs/2505.12354v1
- Date: Sun, 18 May 2025 10:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.184637
- Title: A universal policy wrapper with guarantees
- Title(参考訳): 保証付きユニバーサルポリシーラッパー
- Authors: Anton Bolychev, Georgiy Malaniya, Grigory Yaremenko, Anastasia Krasnaya, Pavel Osinenko,
- Abstract要約: 強化学習エージェントのためのユニバーサルポリシーラッパーを導入する。
我々のラッパーは、高性能ベースポリシーとフォールバックポリシーを選択的に切り替える。
追加のシステム知識やオンライン制約付き最適化を必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a universal policy wrapper for reinforcement learning agents that ensures formal goal-reaching guarantees. In contrast to standard reinforcement learning algorithms that excel in performance but lack rigorous safety assurances, our wrapper selectively switches between a high-performing base policy -- derived from any existing RL method -- and a fallback policy with known convergence properties. Base policy's value function supervises this switching process, determining when the fallback policy should override the base policy to ensure the system remains on a stable path. The analysis proves that our wrapper inherits the fallback policy's goal-reaching guarantees while preserving or improving upon the performance of the base policy. Notably, it operates without needing additional system knowledge or online constrained optimization, making it readily deployable across diverse reinforcement learning architectures and tasks.
- Abstract(参考訳): 我々は、正式な目標達成保証を保証する強化学習エージェントのための普遍的なポリシーラッパーを導入する。
性能が優れているが厳格な安全保証が欠けている標準的な強化学習アルゴリズムとは対照的に、我々のラッパーは、既存のRL法から派生した高性能ベースポリシーと、既知の収束特性を持つフォールバックポリシーを選択的に切り替える。
ベースポリシーの値関数はこの切り替えプロセスを監督し、フォールバックポリシーがベースポリシーをオーバーライドし、システムが安定した経路に留まることを確実にするかどうかを決定する。
分析の結果,我々のラッパーは,基本方針の性能を保留又は改善しながら,フォールバック方針の目標達成保証を継承していることがわかった。
特に、追加のシステム知識やオンライン制約付き最適化を必要とせず、多様な強化学習アーキテクチャやタスクを簡単にデプロイできる。
関連論文リスト
- Multi-CALF: A Policy Combination Approach with Statistical Guarantees [0.0]
相対値改善に基づく強化学習ポリシーをインテリジェントに組み合わせたアルゴリズムであるMulti-CALFを導入する。
提案手法は、標準のRLポリシーと理論的に支持された代替ポリシーを統合し、正式な安定性保証を継承する。
論文 参考訳(メタデータ) (2025-05-18T10:30:24Z) - SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本稿では,モデルフリーのエピソード設定において,新しいタスク固有ポリシーの安全性特性に違反する確率を限定した理論的結果を示す。
また,タスク固有の性能と引き換えに安全保証を交換できるSPoRtを提案する。
論文 参考訳(メタデータ) (2025-04-08T19:09:07Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。