論文の概要: Guardian: Decoupling Exploration from Safety in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.22859v1
- Date: Sun, 26 Oct 2025 22:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.396903
- Title: Guardian: Decoupling Exploration from Safety in Reinforcement Learning
- Title(参考訳): Guardian: 強化学習における安全性から探索を分離する
- Authors: Kaitong Cai, Jusheng Zhang, Jing Yang, Keze Wang,
- Abstract要約: ハイブリッドオフラインオンライン強化学習(O2O RL)は、サンプル効率と堅牢な探索の両方を約束するが、オフラインデータとオンラインデータの分散シフトによって不安定に陥る。
安全対策から政策最適化を分離するフレームワーク RLPD-GX を紹介する。
Atari-100k上での最先端性能を実証的に示し, 安全性と安定性が向上し, 正常化平均スコア3.02(+45%)を達成した。
- 参考スコア(独自算出の注目度): 12.966077380225856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid offline--online reinforcement learning (O2O RL) promises both sample efficiency and robust exploration, but suffers from instability due to distribution shift between offline and online data. We introduce RLPD-GX, a framework that decouples policy optimization from safety enforcement: a reward-seeking learner explores freely, while a projection-based guardian guarantees rule-consistent execution and safe value backups. This design preserves the exploratory value of online interactions without collapsing to conservative policies. To further stabilize training, we propose dynamic curricula that gradually extend temporal horizons and anneal offline--online data mixing. We prove convergence via a contraction property of the guarded Bellman operator, and empirically show state-of-the-art performance on Atari-100k, achieving a normalized mean score of 3.02 (+45\% over prior hybrid methods) with stronger safety and stability. Beyond Atari, ablations demonstrate consistent gains across safety-critical and long-horizon tasks, underscoring the generality of our design. Extensive and comprehensive results highlight decoupled safety enforcement as a simple yet principled route to robust O2O RL, suggesting a broader paradigm for reconciling exploration and safety in reinforcement learning.
- Abstract(参考訳): ハイブリッドオフラインオンライン強化学習(O2O RL)は、サンプル効率と堅牢な探索の両方を約束するが、オフラインデータとオンラインデータの分散シフトによって不安定に陥る。
報酬を求める学習者は自由に探索し、プロジェクションベースの保護者はルール一貫性のある実行と安全な価値のバックアップを保証します。
この設計は、保守的な政策を損なうことなく、オンラインインタラクションの探索的価値を保っている。
さらにトレーニングを安定させるために,時間的地平線を徐々に拡張し,オフライン・オフラインデータ混合を行う動的カリキュラムを提案する。
我々は、ガードされたベルマン作用素の収縮特性を介して収束を証明し、Atari-100k上での最先端性能を実証的に示し、より強い安全性と安定性で3.02(+45\%)の正規化平均スコアを達成した。
Atari以外にも、Ablationsは安全クリティカルなタスクと長期の作業で一貫した利益を示し、私たちのデザインの一般性を強調しています。
包括的かつ包括的な結果は、分離された安全執行を、堅牢なO2O RLへの単純かつ原則化されたルートとして強調し、強化学習における探索と安全性の調整のための幅広いパラダイムを示唆している。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy [12.589890916332196]
オフラインからオフライン(O2O)のRLを利用することで、より高速で安全なオンラインポリシ学習が可能になる。
我々は,O2OセーフなRLのための新しいフレームワークであるtextbfMarvelを紹介した。
我々の研究は、より効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-12-05T18:51:18Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。