論文の概要: Policy Library CBF: Finite-Horizon Safety at Runtime via Parallel Rollouts
- arxiv url: http://arxiv.org/abs/2605.16588v1
- Date: Fri, 15 May 2026 19:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:55:25.454074
- Title: Policy Library CBF: Finite-Horizon Safety at Runtime via Parallel Rollouts
- Title(参考訳): Policy Library CBF: 並列ロールアウトによる実行時の有限水平安全
- Authors: Taekyung Kim, Hideki Okamoto, Bardh Hoxha, Georgios Fainekos, Dimitra Panagou,
- Abstract要約: Policy Library Control Barrier Function (PL-CBF) はランタイムセーフティフィルタである。
Policy Library Control Barrier Function (PL-CBF) はランタイムセーフティフィルタである。
- 参考スコア(独自算出の注目度): 11.99821055563793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-critical autonomy in unstructured environments poses significant challenges for online safety certification under evolving constraints. We propose Policy Library Control Barrier Function~(PL-CBF), a runtime safety filter that evaluates a library of fallback policies via parallel finite-horizon rollouts, selects the least invasive safe mode, and enforces safety by solving a quadratic program that minimally modifies a nominal policy. We provide a theoretical analysis based on a finite-horizon language metric over closed-loop behaviors, characterizing policy-library coverage requirements for certifying finite-horizon safety. Simulations on a planar double-integrator (4 states), highway driving with abrupt friction changes using a realistic nonlinear vehicle model (8 states), and 3D quadrotor navigation in crowded dynamic environments (12 states) demonstrate improved safety coverage over single-policy safety filters while retaining millisecond-level runtime.
- Abstract(参考訳): 非構造環境における安全クリティカルな自律性は、進化する制約の下でのオンライン安全認定に重大な課題をもたらす。
本稿では,並列な有限水平ロールアウトによるフォールバックポリシのライブラリ評価を行うランタイムセーフティフィルタであるPolicy Library Control Barrier Function~(PL-CBF)を提案する。
閉ループ動作に対する有限水平言語計量に基づく理論的解析を行い、有限水平安全性を証明するためのポリシー・ライブラリカバレッジ要件を特徴付ける。
平面二重積分器 (4状態) のシミュレーション, リアルな非線形車両モデル (8状態) による急激な摩擦変動を伴う高速道路運転, 混在する動的環境 (12状態) における3次元四重極航法により, ミリ秒レベルの動作を維持しながら単極式安全フィルタの安全性を向上した。
関連論文リスト
- Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - Online Safety Filter for Deformable Object Manipulation with Horizon Agnostic Neural Operators [25.931880819916643]
変形可能なオブジェクト操作のための制約駆動型オンライン安全フィルタを提案する。
このフィルタは、名目制御ポリシーを最小限に修正することで、タスクレベルの安全性の制約をリアルタイムで実施する。
提案手法はFluidLabにおいて,フィルタがフィルタされていない基本方針に対して,安全な軌道速度を最大22%向上させる。
論文 参考訳(メタデータ) (2026-05-01T20:06:54Z) - Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning [13.674504740468159]
安全到達性セットは、不安定なmin/maxやラグランジアン最適化を伴わずに、いかに安全制約を強制するかを示す。
また、このセットが不安定なmin/maxやラグランジアン最適化を使わずに、いかに安全性の制約を強制するかを示す。
本手法は,安全性を維持しつつ,アートベースラインの状態に適合または優れる。
論文 参考訳(メタデータ) (2026-03-08T11:09:33Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。