論文の概要: Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability
- arxiv url: http://arxiv.org/abs/2605.14246v1
- Date: Thu, 14 May 2026 01:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.565746
- Title: Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability
- Title(参考訳): 部分観測可能性下における安全臨界制御のための行動規定型リスクゲーティング
- Authors: Yushen Liu, Yin-Jen Chen, Ziyi Chen, Tao Wang, Heng Huang, Xugui Zhou, Yanfu Zhang,
- Abstract要約: 部分観測可能性下でのリスク感応制御のための軽量なリスクゲート強化学習近似を提案する。
安全クリティカルな部分観測可能な2つの領域 – 自動グルコース調節と安全制約ナビゲーション – でアプローチを評価した。
- 参考スコア(独自算出の注目度): 79.08785366532287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many safety-critical control problems are modeled as risk-sensitive partially observable Markov decision processes, where the controller must make decisions from incomplete observations while balancing task performance against safety risk. Although belief-space planning provides a principled solution, maintaining and planning over beliefs can be computationally costly and sensitive to model specification in practical domains. We propose a lightweight risk-gated reinforcement learning approximation for risk-sensitive control under partial observability. The method constructs a compact finite-history proxy state and learns an action-conditioned predictor of near-term safety violation. This predicted candidate-action risk is used in two complementary ways: as a risk penalty during value learning, and as a decision-time gate that interpolates between optimistic and conservative ensemble value estimates. As a result, low-risk actions are evaluated closer to reward-seeking estimates, while high-risk actions are evaluated more conservatively. We evaluate the approach in two safety-critical partially observable domains: automated glucose regulation and safety-constrained navigation. Across adult and adolescent glucose-control cohorts, the method improves overall glycemic tradeoffs and substantially reduces runtime relative to a belief-space planning baseline. On Safety-Gym navigation benchmarks, it achieves a more favorable reward-cost balance than unconstrained RL and several standard safe-RL baselines. These results suggest that action-conditioned near-term risk can provide an effective local signal for approximate risk-sensitive POMDP control when full belief-space planning is impractical.
- Abstract(参考訳): 多くの安全クリティカルな制御問題は、リスクに敏感な部分的に観察可能なマルコフ決定プロセスとしてモデル化されている。
信念空間の計画は原則化された解決策を提供するが、信念の維持と計画は、実用的な領域におけるモデル仕様に対して計算的かつ敏感に行うことができる。
部分観測可能性下でのリスク感応制御のための軽量なリスクゲート強化学習近似を提案する。
この方法は、コンパクトな有限履歴プロキシ状態を構築し、短期的安全違反のアクション条件付き予測器を学習する。
この予測されたリスクは、価値学習中のリスクペナルティとして、楽観的なアンサンブルと保守的なアンサンブルの見積を補う決定時間ゲートとして、2つの補完的な方法で使用される。
その結果、リスクの高い行動は報酬を求める推定に近づき、リスクの高い行動はより保守的に評価される。
安全クリティカルな部分観測可能な2つの領域 – 自動グルコース調節と安全制約ナビゲーション – でアプローチを評価した。
成人と思春期のグルコースコントロールコホート全体で、この方法は全糖質のトレードオフを改善し、信念空間の計画基準に対する実行時間を大幅に減少させる。
Safety-Gymナビゲーションベンチマークでは、制約のないRLやいくつかの標準安全RLベースラインよりも好意的な報酬コストバランスを実現している。
これらの結果から, 行動条件付き短期リスクは, 完全な信念空間計画が現実的でない場合に, リスクに敏感なPOMDP制御に有効な局所信号を与える可能性が示唆された。
関連論文リスト
- Risk-Constrained Belief-Space Optimization for Safe Control under Latent Uncertainty [5.99447754429793]
多くの安全クリティカル制御システムは、センサーが決定時に直接解決できないという遅延不確実性の下で動作しなければならない。
標準的な手法は期待されたパフォーマンスを最適化し、稀だが深刻な結果に対する限定的な保護を提供する。
本稿では, 力学, コスト, 安全性の制約が, 信念分布として維持される潜在パラメータに依存する, 部分的に観察された力学系について考察する。
論文 参考訳(メタデータ) (2026-04-04T21:22:44Z) - Safe Probabilistic Planning for Human-Robot Interaction using Conformal Risk Control [13.455001736850255]
本稿では,人間-ロボットインタラクションのための新しい確率論的安全制御フレームワークを提案する。
この手法では、CBFの安全性値の予測誤差を定量化し、制御するために共形リスク制御を用いる。
提案手法は, 基準法に比べて衝突速度と安全違反を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-03-11T04:19:44Z) - Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - Conformal Risk Training: End-to-End Optimization of Conformal Risk Control [41.45834526675908]
我々は,モデルトレーニングや微調整において,コンフォーマルなOCEリスク制御を通じて区別する,エンドツーエンドのアプローチである「コンフォーマルリスクトレーニング」を導入する。
提案手法は,実証可能なリスク保証を実現するとともに,ポストホック手法よりも平均ケース性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-10-09T19:05:45Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。