論文の概要: Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
- arxiv url: http://arxiv.org/abs/2603.15136v1
- Date: Mon, 16 Mar 2026 11:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.101383
- Title: Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
- Title(参考訳): 安全フローQ-Learning: 信頼度に基づくフローポリシーによるオフライン型安全強化学習
- Authors: Mumuksh Tayal, Manan Tayal, Ravi Prakash,
- Abstract要約: オフライン安全な強化学習は、厳格な安全制約の下で静的データセットから報酬を最大化するポリシーを求める。
安全なフローQ-Learning(SafeFQL)を提案する。これは、Hamilton-Jacobiリーチビリティにインスパイアされた安全値関数と効率的なワンステップフローポリシを組み合わせることで、FQLを安全なオフラインRLに拡張する。
ボートナビゲーション全体とSafe Gymnasium MuJoCoタスク、SafeFQLは、事前のオフラインセーフなRLパフォーマンスと一致またはオーバーし、制約違反を大幅に低減する。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.
- Abstract(参考訳): オフライン安全な強化学習(RL)は、厳格な安全制約の下で静的データセットから報酬を最大化するポリシーを求める。
既存の手法は、しばしばソフトな予測コストの目標や反復的な生成推論に依存しており、安全クリティカルなリアルタイム制御には不十分である。
安全なフローQ-Learning(SafeFQL)を提案する。これは、Hamilton-Jacobiリーチビリティにインスパイアされた安全値関数と効率的なワンステップフローポリシを組み合わせることで、FQLを安全なオフラインRLに拡張する。
SafeFQLは、自己一貫性のあるBellman再帰を通じて安全性値を学び、振る舞いのクローンによってフローポリシをトレーニングし、デプロイ時にリジェクションサンプリングなしで安全なアクション選択を最大化するためのワンステップアクタにそれを蒸留する。
学習した安全境界における有限データ近似誤差を考慮し、安全閾値を調整し、有限サンプル確率的安全カバレッジを提供する共形予測校正ステップを追加する。
実証的に、SafeFQLは、拡散スタイルの安全な生成ベースラインよりもかなり低い推論レイテンシで、オフライントレーニングコストをわずかに高くする。
ボートナビゲーション全体とSafe Gymnasium MuJoCoタスク、SafeFQLは、事前のオフラインセーフなRLパフォーマンスと一致またはオーバーし、制約違反を大幅に低減する。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Epigraph-Guided Flow Matching for Safe and Performant Offline Reinforcement Learning [0.0]
本稿では,安全なオフラインRLを状態制約付き最適制御問題として定式化し,安全性と性能を協調的に最適化するフレームワークを提案する。
EpiFlowは、ほぼゼロの実証的安全違反で競合リターンを達成する。
論文 参考訳(メタデータ) (2026-02-08T16:56:21Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - FAWAC: Feasibility Informed Advantage Weighted Regression for Persistent Safety in Offline Reinforcement Learning [7.888219789657414]
安全なオフライン強化学習は、安全性の制約を守りながら累積報酬を最大化するポリシーを学ぶことを目的としている。
主な課題は安全性とパフォーマンスのバランスであり、特に政策がアウト・オブ・ディストリビューション状態や行動に直面する場合である。
本稿では,マルコフ決定過程における持続的安全性を優先するFAWAC(Feasibility Informed Advantage Weighted Actor-Critic)を提案する。
論文 参考訳(メタデータ) (2024-12-12T02:28:50Z) - Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。