論文の概要: Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data
- arxiv url: http://arxiv.org/abs/2605.01356v1
- Date: Sat, 02 May 2026 09:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.723914
- Title: Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data
- Title(参考訳): 限定暴力データを用いたモデルに基づく安全政策のオフライン学習のための積極的コスト生成
- Authors: Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu,
- Abstract要約: 高リスクシナリオでは、リスクの高い試行錯誤は実現不可能であり、安全でないサンプルがほとんど、あるいは全くないデータセットを生成する。
ProCOはモデルに基づくオフラインで安全な強化学習フレームワークで、データセットにほとんど違反のないものに特化している。
- 参考スコア(独自算出の注目度): 5.299447756148624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning constraint-satisfying policies from offline data without risky online interaction is crucial for safety-critical decision making. Conventional methods typically learn cost value functions from abundant unsafe samples to define safety boundaries and penalize violations. However, in high-stakes scenarios, risky trial-and-error is infeasible, yielding datasets with few or no unsafe samples. Under this limitation, existing approaches often treat all data as uniformly safe, overlooking safe-but-infeasible states - states that currently satisfy constraints but inevitably violate them within a few steps - leading to deployment failures. Drawing inspiration from the concept of knowledge-data integration, we leverage large language models (LLMs) to incorporate natural language knowledge into the policy to address this challenge. Specifically, we propose PROCO, a model-based offline safe reinforcement learning (RL) framework tailored to datasets largely free of violations. PROCO first learns a dynamics model from offline data and constructs a conservative cost function by grounding natural-language knowledge of unsafe states in LLMs, enabling risk estimation even without observed violations. Using the cost function and learned model, PROCO performs model-based rollouts to synthesize diverse counterfactual unsafe samples, supporting reliable feasibility identification and feasibility-guided policy learning. Across a range of Safety-Gymnasium tasks with exclusively safe or minimally risky training data, PROCO integrates seamlessly with a variety of offline safe RL algorithms and consistently demonstrates reduced constraint violations and improved safety performance compared to both the original methods and other behavior cloning baselines.
- Abstract(参考訳): リスクのないオンラインインタラクションのないオフラインデータから制約を満たすポリシーを学ぶことは、安全クリティカルな意思決定に不可欠です。
従来の方法では、安全境界を定義し、違反を罰するために、豊富な安全でないサンプルからコスト価値関数を学習する。
しかし、高リスクのシナリオでは、リスクの高い試行錯誤は実現不可能であり、安全でないサンプルがほとんど、あるいは全くないデータセットを生成する。
この制限の下では、既存のアプローチは、すべてのデータを一様に安全であり、安全だが実用不可能な状態を見落としている。
知識データ統合の概念からインスピレーションを得て、我々は大きな言語モデル(LLM)を活用し、自然言語の知識をこの課題に対処するためのポリシーに組み込む。
具体的には、主に違反のないデータセットに適したモデルベースのオフライン安全強化学習(RL)フレームワークであるPROCOを提案する。
PROCOはまず、オフラインデータからダイナミックスモデルを学習し、LLMにおける安全でない状態の自然言語知識を基盤にして保守的なコスト関数を構築する。
コスト関数と学習モデルを用いて、PROCOはモデルベースのロールアウトを行い、さまざまな偽の安全でないサンプルを合成し、信頼性の高い実行可能性識別と実行可能性に基づくポリシー学習をサポートする。
PROCOは、安全または最小限のリスクのあるトレーニングデータを備えたさまざまなセーフ・ジムナシウムタスク全体にわたって、さまざまなオフラインセーフなRLアルゴリズムとシームレスに統合し、制約違反の低減と、元の方法と他の行動クローンベースラインと比較して安全性能の向上を一貫して示す。
関連論文リスト
- Safe Reinforcement Learning with Preference-based Constraint Inference [28.363990267209584]
安全RLにおける制約推論のための規範に基づく制約付き強化学習(PbCRL)を提案する。
PbCRLは真の安全要件との整合性を向上し、安全性と報酬の点で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-24T08:54:03Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。