論文の概要: Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.22292v2
- Date: Tue, 31 Mar 2026 13:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.977524
- Title: Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning
- Title(参考訳): ハード制約を超えて: 安全なオフライン強化学習のための予算制約付き到達可能性
- Authors: Janaka Chathuranga Brahmanage, Akshat Kumar,
- Abstract要約: 安全到達性セットは、不安定なmin/maxやラグランジアン最適化を伴わずに、いかに安全制約を強制するかを示す。
また、このセットが不安定なmin/maxやラグランジアン最適化を使わずに、いかに安全性の制約を強制するかを示す。
本手法は,安全性を維持しつつ,アートベースラインの状態に適合または優れる。
- 参考スコア(独自算出の注目度): 13.674504740468159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential decision making using Markov Decision Process underpins many realworld applications. Both model-based and model free methods have achieved strong results in these settings. However, real-world tasks must balance reward maximization with safety constraints, often conflicting objectives, that can lead to unstable min/max, adversarial optimization. A promising alternative is safety reachability analysis, which precomputes a forward-invariant safe state, action set, ensuring that an agent starting inside this set remains safe indefinitely. Yet, most reachability based methods address only hard safety constraints, and little work extends reachability to cumulative cost constraints. To address this, first, we define a safetyconditioned reachability set that decouples reward maximization from cumulative safety cost constraints. Second, we show how this set enforces safety constraints without unstable min/max or Lagrangian optimization, yielding a novel offline safe RL algorithm that learns a safe policy from a fixed dataset without environment interaction. Finally, experiments on standard offline safe RL benchmarks, and a real world maritime navigation task demonstrate that our method matches or outperforms state of the art baselines while maintaining safety.
- Abstract(参考訳): Markov Decision Processを使った意思決定は、多くの現実世界のアプリケーションを支える。
モデルベースとモデルフリーの両方の手法は、これらの設定で大きな成果を上げている。
しかし、現実のタスクは報酬の最大化と安全性の制約のバランスをとる必要がある。
有望な代替手段は安全到達性分析であり、前方不変の安全な状態であるアクションセットをプリ計算し、このセット内で開始されるエージェントが無期限に安全であることを保証する。
しかし、ほとんどの到達可能性に基づく手法は、ハードセーフティの制約にのみ対処し、到達可能性から累積コストの制約まで、ほとんど作業が及ばない。
この問題を解決するために、まず、累積安全性コスト制約から報酬の最大化を分離する安全条件付き到達可能性セットを定義する。
第二に、このセットが不安定なmin/maxやラグランジアン最適化を使わずに安全制約を課す方法を示し、環境相互作用のない固定データセットから安全なポリシーを学習する新しいオフラインセーフなRLアルゴリズムを生成する。
最後に、標準のオフライン安全なRLベンチマークと実世界の海上航行タスクの実験により、我々の手法が安全性を維持しながら最先端のベースラインに適合または優れていたことを示す。
関連論文リスト
- Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies [0.764671395172401]
オフライン安全な強化学習は、厳格な安全制約の下で静的データセットから報酬を最大化するポリシーを求める。
安全なフローQ-Learning(SafeFQL)を提案する。これは、Hamilton-Jacobiリーチビリティにインスパイアされた安全値関数と効率的なワンステップフローポリシを組み合わせることで、FQLを安全なオフラインRLに拡張する。
ボートナビゲーション全体とSafe Gymnasium MuJoCoタスク、SafeFQLは、事前のオフラインセーフなRLパフォーマンスと一致またはオーバーし、制約違反を大幅に低減する。
論文 参考訳(メタデータ) (2026-03-16T11:28:47Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。
我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。
この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文 参考訳(メタデータ) (2026-01-29T22:03:32Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。