論文の概要: Backup-Based Safety Filters: A Comparative Review of Backup CBF, Model Predictive Shielding, and gatekeeper
- arxiv url: http://arxiv.org/abs/2604.02401v1
- Date: Thu, 02 Apr 2026 15:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.145615
- Title: Backup-Based Safety Filters: A Comparative Review of Backup CBF, Model Predictive Shielding, and gatekeeper
- Title(参考訳): バックアップ型安全フィルタ: CBF, モデル予測遮蔽, ゲートキーパーの比較検討
- Authors: Taekyung Kim, Aswin D. Menon, Akshunn Trivedi, Dimitra Panagou,
- Abstract要約: 本稿では、バックアップ制御バリア関数(バックアップCBF)、モデル予測シールド(MPS)、ゲートキーパーの3つのバックアップベースの安全フィルタを再検討する。
共通な安全フィルタの抽象化と共有記法を用いて、共通のバックアップ政治構造と重要なアルゴリズム的差異の両方を明示する。
本論文は,これらの手法の理論的関係と差異を明らかにするための,コンパクトなチュートリアルとレビューを意図したものである。
- 参考スコア(独自算出の注目度): 9.357611803974013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper revisits three backup-based safety filters -- Backup Control Barrier Functions (Backup CBF), Model Predictive Shielding (MPS), and gatekeeper -- through a unified comparative framework. Using a common safety-filter abstraction and shared notation, we make explicit both their common backup-policy structure and their key algorithmic differences. We compare the three methods through their filter-inactive sets, i.e., the states where the nominal policy is left unchanged. In particular, we show that MPS is a special case of gatekeeper, and we further relate gatekeeper to the interior of the Backup CBF inactive set within the implicit safe set. This unified view also highlights a key source of conservatism in backup-based safety filters: safety is often evaluated through the feasibility of a backup maneuver, rather than through the nominal policy's continued safe execution. The paper is intended as a compact tutorial and review that clarifies the theoretical connections and differences among these methods.
- Abstract(参考訳): 本稿では、バックアップ制御バリア関数(バックアップCBF)、モデル予測シールド(MPS)、ゲートキーパー(ゲートキーパー)の3つのバックアップベースの安全フィルタを統合比較フレームワークで再検討する。
共通な安全フィルタの抽象化と共有記法を用いて、共通のバックアップ政治構造と重要なアルゴリズム的差異の両方を明示する。
我々は、これらの3つの手法をフィルタ非活性な集合、すなわち、名目的ポリシーが変更されない状態を通して比較する。
特に,MPSはゲートキーパーの特殊な場合であり,暗黙の安全なセット内のバックアップCBF非アクティブセットの内部にゲートキーパーを関連付ける。
この統一された見解は、バックアップベースの安全フィルタにおける保守主義の重要な源であることも強調している: 安全はしばしば、名目上のポリシーの継続的な安全実行ではなく、バックアップ操作の実現可能性を通じて評価される。
本論文は,これらの手法の理論的関係と差異を明らかにするための,コンパクトなチュートリアルとレビューを意図したものである。
関連論文リスト
- Towards Policy-Adaptive Image Guardrail: Benchmark and Method [21.041111216560545]
ヴィジュアル言語モデル(VLM)は動的安全ガードレールのより適応的で一般化可能な基盤を提供する。
既存のVLMベースの保護方法は、通常、固定された安全ポリシーのみの下で訓練され、評価される。
本稿では,ロバストなアンセーフイメージガードレールに対する報酬を検証可能な強化学習ベース手法であるSafeGuard-VLを紹介する。
論文 参考訳(メタデータ) (2026-03-01T18:59:21Z) - TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering [18.943719866462512]
大規模言語モデル(LLM)のタンパー抵抗を評価するためのフレームワークであるTamperBenchを紹介する。
TamperBenchは、最先端の重量空間微調整攻撃と潜時空間表現攻撃をキュレートする。
私たちはTamperBenchを使って、防衛強化型を含む21個のオープンウェイトLCMを、9つの改ざん脅威に対して評価する。
論文 参考訳(メタデータ) (2026-02-06T18:04:38Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Statistically Assuring Safety of Control Systems using Ensembles of Safety Filters and Conformal Prediction [1.5335713879217925]
Hamilton-Jacobi (HJ) 到達可能性解析は、安全を正式に検証し、安全なコントローラを生成するための基本的な方法である。
このような不確実性に縛られる共形予測ベース(CP)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-11-11T06:54:16Z) - Provably Optimal Reinforcement Learning under Safety Filtering [6.197103843323546]
パーミッシブセーフティフィルタによる安全性の強制は、固有の性能を低下させるものではないことを示す。
安全決定プロセス (SC-MDP) により安全を形式化し, 破滅的故障状態を回避するためには, 高い確率ではなくカテゴリー的判断が必要である。
我々の主定理は、 (i) フィルタリングされた MDP における学習は安全な分類であり、 (ii) 標準 RL 収束は、フィルタされた MDP に受け継がれ、 (iii) フィルタされた MDP で最適となる政策は、いずれの政策も決定する。
論文 参考訳(メタデータ) (2025-10-20T20:20:10Z) - GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners [60.49708196646694]
大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-29T08:07:45Z) - CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本研究では,モデルフリーでエピソードな環境において,新しいタスク固有ポリシーの安全性特性に違反する確率に制約を課す理論的結果を示す。
この境界は、時間的に拡張された性質(安全性の他に)や堅牢な制御問題にも適用できる。
本研究は,このトレードオフを実証し,経験的違反率から得られる理論的境界と後続境界とを比較した実験結果である。
論文 参考訳(メタデータ) (2025-04-08T19:09:07Z) - Adversary Resilient Learned Bloom Filters [0.14337588659482522]
学習ブルームフィルタ(LBF)は、古典的ブルームフィルタ(CBF)と学習モデルを組み合わせて、与えられた集合を表現するために必要なメモリ量を削減する。
本稿では,LBFの適応セキュリティを実現する方法について述べる。
論文 参考訳(メタデータ) (2024-09-10T14:37:43Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。